普林斯頓范劍青教授:AI=機器學習²,我們在去往²的路上

雷鋒網報道,在9月18日「2018世界人工智能大會」智能金融主題論壇上,中國互聯網金融協會會長李東榮,加州大學伯克利分校米高奧雲·喬丹(Michael I. Jordan)教授,復旦大學大數據學院院長、普林斯頓大學教授范劍青、匯付天下董事長兼CEO周曄帶來了主題演講。

其中,范劍青教授分享了《數據智能與金融創新》。他主要介紹了人工智能的興起,以及數據智能如何增強市場效率,加速產業發展、引領高科技的發展的。「人工智能的目的與價值,就是把大數據加工成智慧數據,為經濟發展提供新能源,為科技創新提供新依據,為管理決策提供新信息。」

「大數據與人工智能為健康醫療、科學發現、技術創新、商業管理、政府決策等帶來由信息海嘯驅動的又一次工業革命,同時方方面面影響着人類的工作、生活和通訊方式。各行各業創新所產生的大量數據又增加了對海量數據處理和分析的強烈需求,促進了大數據與人工智能的發展。」

以下是演講原文,雷鋒網作了不改變原意的編輯:

AI是機器學習的平方,我們在去平方的路上

每天數十萬金融分析師湧向華爾街,重複繁瑣的數據分析。上百萬銀行業者匆匆趕到工作崗位,開始他們每天常規工作。像一百多年前的農業、手工業一樣,我們自然要問能否讓智能機器來輔助這些工作,使得更多聰明才智可以投入高科技生產、藝術創作,提高人的生活體驗。人工智能席捲全球,大數據、人工智能是伴隨着數據與信息革命應運而生,發展迅速。上百萬的攝像頭,數億部智能手機和幾十億網絡搜索,和社交網絡上的對話產生巨大海量數據,其中包括公共安全、公共衛生、消費傾向、商業活動、經濟走勢等等。同樣數十億的處方、海量的生物、遺傳信息帶來健康大數據。海量數據的收集促成了大數據時代的到來。海量數據的挖掘催生了人工智能的發展。換句話說人工智能就是從大數據到智慧數據之間的橋樑。

人工智能的起源是來自1955年,John Mccarthy創造了這個術語。理想的狀況有點像科幻小說,「類人」機器,讓它有認知、表達、思考感知能力,但目前還做不到。現實是希望能夠用技術訓練機器,將人從重複性、簡單性、危險性的繁瑣事物中解放出來,提高人的創造力和生活體驗。換句話說人工智能的目的是要提高人的體驗,不是讓一些人失業的。第一代比較簡單是機器表達與邏輯推理,機器證明、專家系統、邏輯系統。第二代是概率建模與統計學習的基礎上知識圖譜、機器學習、神經網絡。

何為人工智能,翻譯有點不好,機器智能其實更合適。Michael I. Jordan剛才說它應該是統計學。有些人可能不一定完全同意。在我看來,人工智能是機器學習的平方,讓機器自動學習機器算法是機器學習的理想狀況。它具體表現是在圖像識別、語音識別、機器學習、專家系統、計算機視覺還有自然語言處理等等。如果我們按圖靈測試來檢驗現在的很多系統,恐怕我們多半系統是機器學習,不是人工智能。換句話說我們還沒達到平方,只是在往平方的路上。

那麼大家可能會,什麼是人工智能?Arthur Samuel的想法是讓機器從數據終學習並做決策,我認為它是一個可擴張的統計算法,充分融合統計建模思想,以及計算優化方法,使得這些數據分析的思想能夠在大數據的環境下得到實現。它最後的產品當然是一個可執行的程序。未來有可執行的程序我們需要有一個優化目標,有優化目標跟剛才Michael I. Jordan說的一樣,需要統計建模。

大家比較熟悉的深度學習,其實是一個神經網絡系統,更直白一點是數學的函數逼近,它用的是兩種方法,信號源的線性組合,再做非線性的選擇,重複的過程構成很複雜的函數逼近方法。

為什麼它是如此成功,這又是一個權衡偏差和方差的有效方法。深度網絡使得近似高維函數更加靈活,九十年代已經就有了。大數據的到來使得我們大大減少了方差,現代計算技術的革命使得大規模的優化成為可能跟現實,這樣我們就能夠更好更深度的學習函數逼近的方法。在圖像識別、機器翻譯、自然語言處理等方面都取得了很大的成功。這些問題其實從決策角度來說是比較簡單的,因為個體的差異比較小,我說話有口音,我跟你的差異沒有那麼大。第二,信號即已知,我說的話所有的信號都在那裡,這樣問題比較簡單。

機器學習的挑戰

機器學習有很多挑戰,在經濟金融、生物醫學、管理決策、人文科學裡面有很多挑戰。個體差異太大,更重要的是信息集未知,特徵很難提取,需要多學科交叉。比如說閃電奔跑,它的信號集是什麼我們大都不知道。我們自己也做了一些預測,比如說預測高頻數據,接下來的走勢是往上還是往下。我們做了自己的分析和特徵提取。得到的結果是傳統的邏輯回歸跟深度學習,其實最後消費者差不多。換句話說,其實最後在其他應用裡面,有時候如果特徵提取是好的話,它的非線性並不是那麼重要,更重要是特徵自己的提取問題。我們在這個問題基本上可以看得出來,因為市場比較有效,能夠可測性的精確度並不是特別高,這時候深度學習跟邏輯回歸也差不多。

我最近看到一個消息,微軟推出人工智能心臟風險測試指標,微軟印度總經理表示他們新的API評分是基於四十萬印度人的共享數據的基礎之上,可以輕鬆的識別每一位患者的風險水平。具體他們怎麼分析,什麼結果都沒有,同樣的文章中只是一直在介紹深度學習的偉大。

我就把他們的結果差不多的東西放在這。這裡面也有40萬左右的人口,用80%的數據來訓練機器算法。最後得出的結果也是這樣,不過精確度並不算高,比隨機猜測好一點。這個時候深度學習跟邏輯回歸是差不多。這也是另外一個例子說明深度學習不能解決所有的問題,深度學習的成功應用是在語音、圖像識別等方面,而且需要明白數據集是什麼,特徵是什麼,這個問題可能更為重要。

接下來我舉個比較成功的例子——預測債券風險溢價,是我們自己做的。當前我有131個宏觀經濟數據,此外的數據需要自行挖掘。我們用了8個匯總宏觀經濟系列,用已有的信息預測。有專業指導的信息學習可以改進預測的效果。我們這裡用的模型叫做因子增量模型,看上去跟神經網絡有相關的,其實在統計計量裡面已經有過這樣的模型。

如果只是用簡單的算法來預測的話,大概可以預測18%,如果用因子選擇,可以預測到24%左右。如果說因子選擇的更好的話,可以預測到32%。如果說把統計的穩健思想都加進去的話,可以預測到38%。在這個基礎之上,如果再加入神經網絡,最後的結果可以達到45%左右,這個例子就說神經網絡是有用的,但是一定要根專業知識相結合,怎麼樣能夠找到更好的影響市場的因子,這樣我們可以達到更好的風險預測跟控制的目的。

智能數據增強市場效率

第二塊關於智能數據增強市場效率。在大數據的環境之下,金融行業面臨著巨大的挑戰,第一,現在的信息密度、深度和廣度都有明顯增加,自然而然我們就需要數據智能來提升市場效率跟決策力。現在除了金融衍生品、股票、外匯、宏觀指數,還有很多非結構的新聞、文本和氣候變化。如果用人工智能機器學習的辦法,我們顯然可以降低信息獲取的成本,拓寬信息獲取的渠道,提高信息傳遞的速度,並且提高信息的真實性。數據智能在金融裡面有許多應用,從商業銀行的消費金融、財務風險、客戶管理、風險判別到證券市場的量化交易、智能投顧、風險防範和信用評估,還有保險業的信用管理、詐騙分析、獲客分析、保險精算。政府職能裡面有風險評判、智能監管、預警分析、政策評估。機器智能可以降低勞動力成本,減少信息不對稱性,提高預測能力。

金融創新的一大挑戰也是數據。首先,金融市場的風險觸發機制更為複雜,有個體風險和系統性風險兩個相疊加,數據來源方面多元化,行為更為緊密,除了市場內的交易數據之外,還有市場外的社交網絡,影響範圍更廣,傳播速度更快。第二,在信貸活動方面,信貸活動的評估給風險管理也帶來加強,最大程度上獲取信息,判別欺詐。信貸管理及時預判風險,交叉驗證。第三,在投資決策方面,我們面臨的不確定性,包括預測分析,對預測分析的需求明顯提高。

金融最基本的作用把投資者的錢投放到生產的地方去,生產的地方錢又安全送回到投資者。實現這樣的載體是我們的金融市場,它的效率分為信息效率、配置效率,後者是從市場形態、交易成本實現金融市場的職能。智慧數據可以提高信息效率,金融的特點數據來源多樣,行為隱蔽,包括保密、脫敏、干擾、缺失、倖存者偏差等等。我們作為分析師或者作為整個市場和社會,我們無法擁有所有的數據,每個人只是擁有一小部分,數據共享變成是金融市場,提高金融效率的很重要的方面,數據擁有者對數據貢獻和交流的意願比較低,數據孤島現象經常出現,監管也難以開展。有些金融機構和監管部門,有數據不能用,有數據不會用,有數據不敢用,這樣的情況也經常發生。

智慧數據提高信息效率

怎麼樣構造一個機制實現數據共享呢?大數據金融創新中心提出這樣一個構思,利用數據沙箱設計實現數據安全,同時在不影響隱私的情況下,充分發表充分的統計量,這樣充分的統計量可以幫助我們分析數據,增強數據的信號。我們盡量設計鼓勵數據共享的機制,以區塊鏈等技術來實現共識的穩定,提高合作與激勵的效率。推動監管科技提高靈活性,減少消極監管或者錯殺,這是我們提高數據效率的關鍵部分。

我們要實現的目標就是數據共享來增加數據的流通性跟可靠性。數據挖掘方面可以提高它的使用效率,實現數據的價值。在存儲方面,安全方面,我們可以保障存儲隔離,保障數據的原始狀態和可溯源,還有自動化配置等等。在金融裡面很簡單的一個問題,我們剛才說的數據源到底數據要用多大,如何篩選高效低險的企業,如何辨別不良企業,如何克服信用風險,如何防範風險道德。這些非常簡單的問題需要從多元交付、海量增長的數據裡面挖掘,在挖掘這些數據的同時,也能夠讓我們關注市場的微觀行為,從而達到更有效的監管。

人工智能的目的就是提高數據挖掘的能力,而挖掘數據的相關性是多種多樣的。舉個例子,為了儘早預測沃爾瑪的業績,分析師會想方設法找比它更早預報業績的相關公司,比如紙袋公司,從而用他們的數據幫助預測一個公司的業績。但這種做法既費事又不精確。AI可以大大提高這些分析的效率和節省費用。一個星期的分析師和工程師的工作可以在一分鐘內用機器學習的方法完成。AI能夠增加市場效率,解決信息不對稱的問題。

我們有很多網絡數據和各種各樣的「學習」。比如說高槓桿基金的持股網絡中心能夠幫助政府評估系統風險,如果市場需要,可以更精確地干預。而同樣的,我們的同事研究過怎樣從一個基金經理的持股情況推算出他的社交網絡,辨別社交網絡是否有違規的行為。在市場數據裡面,網絡數據裡面,是非常之豐富的。

數據智能能夠加速產業發展

第三部分,數據智能能夠加速產業發展。第一表現在,金融科技的未來可以顛覆傳統風控。主要有三方面體現。

  • 科技紅利,互聯網使金融服務觸達更多用戶,收集海量多元的數據,而且除了這之外還有市場內外的信息。

  • 大數據紅利,傳統的風控在新的經濟環境下積累了60多年的數據,互聯網也積累了十多年數據,這些數據可以徹底改變傳統風控手段。

  • 金融科技紅利,智能創新的多尺度風險測度和風險手段不斷湧現,這些手段可以得到及時的測試和反饋。我們做風控控制的目的不是預測風險的到來,而是反饋,使得消除風險,隨着大數據的到來,人工智能的到來,我們能夠有更多更好的方法來學習自適應、自回歸的過程。

具體到業務產品,比如智能投顧,基本思想是利用機器完成客戶需求分析、投資分析、資產配置選擇等工作。意在替代人類完成財富管理或者投資建議方面的工作,實現投資的自動化。其中關鍵的技術有三點:

  • 數據:數據有市場行為,比如說情緒指數和政策變量等;用戶的行為,比如說社交、電商數據等。

  • 方法:決策樹、深度學習、回歸分析等。

  • 理論是基於投資理論尋求風險和資金組合最合適的最優級。

另一重要產品是大數據徵信,利用數據採集、存儲、分析,獲取信用主體的多維行為信息,評估個人徵信水平,降低信貸失信率。

  • 關鍵技術是數據採集、數據存儲、數據分析到評分模型,評分非常關鍵。

  • 數據來源也是非常豐富,除了平時的生活數據之外,還有網絡購物、客戶評價、信息交易、社交信息等等。

  • 應用的範圍包括信貸管理、實物租賃、消費金融、保險風控。

  • 服務的群體是小微金融和銀行貸款無法覆蓋的個體。小微金融是指從小資投資者的錢到小創業者。小微金融的產品基本上是低收入個體他們的金融需要是什麼,從存儲到投資到個人貸款等等之類的。它在經濟發展中起着非常重要的作用。在發達國家大概能夠幫助實現經濟增長率為4%到5%,發達國家是2%左右。

值得注意的是,小微金融的發展瓶頸是合理定價,合理定價是任何金融產品可持續的基礎。而基於大數據、人工智能的信用評估,能夠提供更快更有效的決策。小微金融的作用顯然是現在的科技創新開拓了金融服務的對象,使得我們以前對低收入或者中產收入,低收入沒有多少信用的人,現在也變成能夠有一些信用的基本分析。

中國大數據徵信的挑戰是體量比較大,貸款比較難,因為分佈比較零散,業務不規模,盈利不明朗,信用比較難構建。網絡社交消費大數據為徵信提供了很有效的基本原料。小微金融在過去幾年還是發展挺迅速的,市場引導和政府指導是一個長遠發展的基礎,政府布局對高科技產業發展尤其重要,這裡有幾個例子,張江高科技園支持了早期的展訊通信,現在變成世界第三大手機芯片供應商,也是國內最先進的領先半導體產業。上海硅產業投資公司幾年前投資了數家歐洲半導體公司,現在估值反了10多倍。中關村也有相關的例子。政府布局對人工智能、大數據、金融科技這些新興產業,現在應該是非常重要的時候,所以需要市場引領和政府指導相結合,才能夠把市場弄的更有效。

數據智能引領高科技

最後講一下數據智能引領高科技。數據智能的發展促進了相關學科的發展,計算機、數學、信息學、統計學等等,也推動了高科技的創新從硬件軟件到系統,也激勵新產品的開發,拓展了新的服務對象。舉個例子,對機器學習、統計學的挑戰。大家現在常說的精準營銷、精準醫療,處理這些問題的難點是數據多樣性,我們怎麼樣能夠讓數據來源更多元,進行分析,對稀疏性、內生性、測量誤差等等,因為大數據的原因產生了很多新的統計問題,處理這些問題的時候,需要更複雜更有效的算法。

對應用數學同樣也有類似的挑戰,從計算瓶頸上,我們經常會出現大規模的非凸的優化問題,我們經常需要在計算、統計上面提出新思想。對大數據系統也是同樣有非常大的挑戰。

更多資訊,請關注雷鋒網AI金融評論。


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems