“我們傳統的離散化通常考慮單個變量和結局(如信用)之間的相關性,采用融合臨近值的方法去離散化。實際上離散化的過(guò)程就是一個分箱的過(guò)程。而分箱的過(guò)程,可以使用分段常數函數這(zhè)一數學(xué)模型來刻畫。”北京大學(xué)生物統計系教授賈金柱表示。
該項目《基于group/fused Lasso的離散變量選擇/分箱回歸/有趨勢約束下的參數估計》是北大-睿智科技Fintech聯合實驗室第一期結題課題之一,亦是睿智科技的委托課題之一。項目負責人、北京大學(xué)生物統計系教授賈金柱及睿智科技的相關研究人員針對(duì)如上存在的問題,在對(duì)中外研究現狀進(jìn)行研究過(guò)後(hòu),“我們采用了一種(zhǒng)研究方法,即使用logistic 負對(duì)數似然函數作爲優化損失函數;添加fused lasso 約束;添加group lasso做變量選擇。”賈金柱表示。
項目負責人、北京大學(xué)生物統計系教授賈金柱
“我們研究了分箱回歸問題,具體研究了基于 group/fused Lasso的離散變量選擇/分箱回歸/有趨勢約束下的參數估計問題。”賈金柱表示,“首先針對(duì)結局變量是二值變量情形,我們采用logistic 回歸建模。其次,我們將(jiāng)變量的分箱問題,直接轉化爲 fused lasso 問題。將(jiāng)變量選擇轉化爲 group lasso成(chéng)組選擇問題。”
圖表來源:《基于group/fused Lasso的離散變量選擇/分箱回歸/有趨勢約束下的參數估計》
最終該項目提出了一套解決方案,并開(kāi)發(fā)出一套計算機算法,用來實現有趨勢約束下的分箱回歸的變量選擇,據此選擇的變量與估計的參數有較好(hǎo)的模型表現。“此方案的計算機實現可以用R語言或者Python,且優先使用R語言實現。”
北大-睿智科技Fintech聯合實驗室的北京大學(xué)、睿智科技雙方代表共20餘人參加了該課題的結題會(huì)議,學(xué)術委員認真聽取了賈金柱的答辯報告,并對(duì)項目的研究成(chéng)果、實踐意義、未來研究方向(xiàng)進(jìn)行了探讨。學(xué)術委員會(huì)成(chéng)員、北京大學(xué)數學(xué)科學(xué)學(xué)院教授房祥忠,學(xué)術委員會(huì)成(chéng)員、睿智科技模型研發(fā)總監劉洋博士就“分箱回歸及所采用的統計學(xué)方法”“分箱回歸參數估計”等問題與賈金柱進(jìn)行了探讨與交流。
最後(hòu),經(jīng)學(xué)術委員會(huì)審議表決,《基于group/fused Lasso的離散變量選擇/分箱回歸/有趨勢約束下的參數估計》順利通過(guò)結題。
左起(qǐ):睿智科技CTO蘇明富
項目負責人、北京大學(xué)生物統計系教授賈金柱
睿智科技聯席總裁兼CFO黃建
睿智科技模型研發(fā)總監劉洋博士
2019年9月,大數據分析與應用技術國(guó)家工程實驗室與睿智科技聯合發(fā)起(qǐ)的北大-睿智科技Fintech聯合實驗室在北京大學(xué)靜園六院正式成(chéng)立。該聯合實驗室將(jiāng)探索産學(xué)研結合的新模式,推動大數據和人工智能(néng)等前沿技術在金融科技行業中的應用和發(fā)展,助力傳統金融行業的數字化轉型。
聯合實驗室的課題研發(fā)面(miàn)向(xiàng)北大師生開(kāi)放申請。同時,北大師生如有金融科技領域的前沿課題,也可以向(xiàng)聯合實驗室提交單獨的申請報告,待學(xué)術委員會(huì)審核通過(guò)後(hòu)將(jiāng)予以實施并提供經(jīng)費支持。