機器學習如何應用於金融領域?

機器學習如何應用於金融領域?

去年P2P公司遇冷后,紛紛轉型稱會用大數據、機器學習等科技手段服務金融,搖身一變成為時髦的Fintech金融科技公司。但實現過程並不簡單,讓機器代替人去處理數據做判斷,在國內金融領域才剛剛起步。

CreditX氪信是雷鋒網接觸的一家用機器學習做風投的公司,在金融領域擁有不少實驗經驗和思考。最近氪信創始人朱明傑在朗迪中國峰會發表演講,談及了將機器學習應用於金融的難點,以及如何提升模型的可解釋性。下文編輯自演講內容,有刪減。

我做了十多年的機器學習,用機器代替人去處理數據做決策和判斷。過去十多年的機器學習,成功的應用都是在互聯網上,搜索,廣告,推薦,可以說互聯網率先達到了數據時代。而到金融創新這個領域,如何實現互聯網級別的機器學習和人工智能,大家都剛剛起步,我今天想講講我們CreditX在金融領域實踐互聯網級別機器學習的一些經驗和思考。

金融風控的痛點

我一直認為,「科技進步是被業務需求逼出來的」。過去我們在互聯網行業靠算法和機器,都是被逼的,為什麼,因為數據量實在太大了,你想去淘寶搜個手機殼,讓阿里的同學人肉從上億的商品里幫你找出最喜歡最合適的,那根本不可能。傳統金融場景里,一筆100萬的貸款主要靠風控人員和關係,那是可行的;而到了銀行的信用卡中心,積壓的申請審核,讓審批人員每周加班,都批不完。

那現在互聯網金融要面臨更加普惠的場景,比如幾百塊錢一筆的手機貸,靠鋪人力一定是行不通的。所以,這已經不單單是提升運營效率問題,而是必須要把活兒交給機器,讓機器來學習人的風控經驗,機械人變成風控專家。

金融領域應用機器學習與人工智能的難點

第一個問題是數據太少。因為金融數據非常稀疏,而且現在的很多金融產品形式在以前沒有發生過,所沒有十幾年的數據積累。換句話說就是缺少訓練數據,這又被稱為冷啟動,缺數據。另外,金融領域出現壞賬情況少則一個月多則數月,數據積累需要等很久,相比之下,互聯網搜索領域內可以迅速拿到點擊反饋,兩者差別很大。所以數據缺失是阻礙機器來學習人類經驗的巨大障礙。

第二個是數據太多。這裡指的是數據特徵維度多,超過了人的處理能力。傳統金融只有十幾維度的特徵變量,人工調公式即可應對。但現在面臨這麼多維度的數據,大家也想了很多很好的願景,討論很多數據都可以用。但為什麼用不上呢?問題在於我們有什麼辦法可以有一個很強的表達能力將這些很原始的,也可以叫弱變量的數據特徵利用起來。將弱特徵數據組合起來,與結果聯繫起來,讓人的直觀經驗可以理解,讓風控專家去反饋。

在金融場景內,不能像互聯網機器學習一樣是一個黑盒子,一堆數據扔進去,等結果來反饋迭代。金融場景內,特彆強調模型的可解釋性,這樣才能把人的風控經驗和直觀感受跟數據表現結果關聯起來。在此基礎上,我們才能說把人的經驗介入到利用數據進行機器學習建模的操作中去。做到特徵要能夠追溯回去,尤其是金融的反饋結果要等很久,需要人能夠快速干預反饋。

如何解決金融風控冷啟動問題

數據太少

對於數據太少和產生太慢的問題,冷啟動問題是一個非常典型的case。我們在互聯網行業經常面臨缺少數據的問題,也積累了成熟的經驗,就是把人的因素疊加到機器學習過程中去。我們做搜索廣告時,會請人標註數據,然後通過標註數據的專家來指導算法工程師調優算法,改進排序結果。而在金融場景里,我們有很多現成的經驗以及經驗豐富的風控人員,這些專家有很強的風控知識。

理論上講,如果有幾百個風控專家,不用發工資,我們做手機貸也可以做下去,但實際情況是我們必須靠機器去學習人的風控經驗。所以我們通過半監督學習的方法,把業務風控專家和實際的信貸結果在online學習中做一個結合。在這個過程中,風控人員可以實時的介入,不停地根據輸出結果做一些調整,然後非常實時地反饋到模型訓練的迭代提升的過程當中。

這就說我們特別重視人的因素。現在大家都在講人工智能,人工智能的本質是什麼?在我的理解其實就是讓機器學習人的經驗。以前我們依賴幾個經驗豐富的風控人員,現在我們可以讓機器把人的經驗學過來,然後讓機器來做一個自動的決策。

金融的業務結果和樣本非常珍貴。比如,我之前在房貸業務上積累了一些樣本,然後換到一個新的消費信貸業務上,或者從一個消費信貸業務切換到另一個新的業務。這些珍貴的樣本數據不能丟掉,但怎麼去用呢?我們可以做到儘可能利用已有的經驗和知識,把generic的風險核心模型和domain knowledge分開,再去根據業務的場景信息,以及場景內的先驗知識結合起來,在此基礎上學習和復用跨領域跨場景的知識,並且可以做到知識積累。

深度學習技術解決特徵工程的難點

數據太多

接下來我們來看「數據太多」。我將這個問題分為兩個部分來看。

首先是數據的特徵維度很多。我們關心的是如何將大數據和金融風控的問題掛鈎起來,這裡面其實是需要非常強大的特徵加工和表達能力。這是傳統的線性回歸統計建模方法很難去完成的。我們的辦法有很多,這裡面包括大家現在熱度很高的「深度學習」。深度學習的本質是通過數據特徵的處理去學習人處理知識和數據的方式。為了解決數據太多的問題,讓人能看透浩瀚的原始數據,在模型的前端,我們嘗試了不同的深度特徵編碼方法,非監督學習的方法對原始數據進行預處理,從而實現特徵的降維,將浩瀚的原始數據和最後結果掛上鉤。

模型的可解釋性

其次是模型的可解釋性。金融專家特別關心模型的可解釋性。這裡面有兩個意義:

  • 如果給信貸對象一個打分的結果,如果不能解釋,這個很難和申請人去溝通的;

  • 另外,我們所面臨的是一個非常複雜的環境,如果對於風控結果仍然是黑盒進黑盒出的話,風險是很難去把控和估計的。

如果模型出了問題,造成的風險漏洞是我們不能承受的。在互聯網金融業務這麼快速成長的背景下,很有可能公司的業務都做不下去。所以,互聯網內黑盒進黑盒出的方法就不適用於金融場景,需要有一個可解釋的local模型去做到。我們的實踐經驗是,利用LIME去捕獲結果或者局部結果中的關鍵變量,然後讓風控專家迅速的抓到是哪些特徵導致結果的變化

氪信取得的效果

我們把互聯網的技術經驗,在金融場景內做了一些艱難的嘗試,並得到了一些實踐經驗,包括從最開始的數據獲取處理,到人的介入參與,到對複雜模型的干預過程,最後形成我們的practice。

從效率上說,我們的一個合作夥伴得到了很好的效果。他們做了一個金融信貸場景,部署在氪信的系統和模型上跑,只需要3-4個業務風控兼運營的人員,風控的大部分工作交給機器去做。

另外從效果上看,我們利用DNN模型做出來一個結果,可以看到結果比傳統的LR模型ks值從0.19提升到0.43。數字和結果是我們做模型的人最直接的一個答案,這裡面沒有什麼可以講概念的。

大家之前對大數據期望值很高,又屢屢失望,現在其實對數據科技來說是一個很好的時機。因為大家真的需要能夠有運用數據的能力,用機器解決金融實際問題,這也是我們這個時代的機會和風口,也是一個新的開始。

下個月的12、13號,雷鋒網將在深圳舉辦一場盛況空前的人工智能與機械人峰會,屆時我們將發佈「人工智能&機械人Top25創新企業榜」榜單,為此我們在搜集並確認AI、機械人、自動駕駛、無人機等幾個領域的優質項目。如果您的項目是相關領域的,且足夠有技術壁壘、足夠有成長性,歡迎聯繫2020@leiphone.com。


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems