英特爾戴金權:詳解全新大數據分析+AI平台Analytics Zoo | CCF-GAIR 2018

.. 雷鋒網按:2018 全球人工智能與機械人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了深圳市保安區政府的大力指導,是國內人工智能和機械人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智能領域最具實力的跨界交流合作平台。

在大會第一天的「AI前沿」主會場,英特爾高級首席工程師、大數據技術全球CTO戴金權帶來了題為「大數據分析+人工智能」的演講。

戴金權負責領導英特爾全球(位於硅谷和上海)的工程團隊在高級大數據分析(包括分佈式機器學習和深度學習)上的研發工作,他帶領團隊一手研發了基於Apache Spark 框架的分佈式深度學習庫 BigDL,在這次演講中,他還着重介紹了一個新產品:會後,雷鋒網就BigDL和Analytics Zoo對戴金權進行了專訪。

英特爾AI軟件工具圖譜

近一年來,英特爾反覆提到的「人工智能全棧解決方案」是其人工智能戰略布局的最好詮釋。

戴金權介紹到,英特爾一直致力於提供一個完整的端到端的全棧人工智能解決方案,從終端設備端到網絡,再到數據中心的雲端。

這一套解決方案的底層技術包括了至強可擴展處理器、NNP芯片、FPGA、網絡以及存儲技術,其上則是各種數據庫、人工智能平台和具體的體驗。

此次,戴金權更為詳細地解釋了英特爾的人工智能軟件層。

在基礎層,有英特爾針對機器學習優化的英特爾發行版Python、優化的DAAL的發行版、MKL-DNN和clDNN神經網絡函數的優化庫、開源的nGraph編譯器等;在庫這一層,有機器學習庫的優化、TensorFlow/MXNet/Caffe/BigDL等的優化,再到工具包這一層,有開源視覺推斷和神經網絡優化工具包OpenVINO、VPU上的優化推斷開發的英特爾Movidius SDK、CPU上的認知解決方案英特爾Saffron AI。這些端到端的解決方案可以幫助開發者更快速地開發AI應用。

戴金權一直致力於大數據分析,開發出基於Spark的分佈式深度學習框架BigDL和Analytics Zoo,讓更多的大數據用戶、數據工程師、數據科學家、數據分析師能夠更好地在大數據的平台上使用人工智能技術。

BigDL是將英特爾大數據平台與人工智能結合的產物,為什麼要做這樣的結合呢?

戴金權介紹了三個趨勢。

第一個趨勢,今天深度學習的發展很大程度上是由於數據規模來推動的。由下圖可見,隨着橫坐標數據規模的增長,縱坐標顯示的神經網絡模型就越有效,越準確。任何深度學習的系統、框架、應用都要能夠處理大規模的數據。

第二個趨勢是業界大數據的發展,不管是互聯網公司還是傳統企業,大家都以Apache Hadoop建立起數據平台,這個平台聚集大家處理過的和未處理的數據,從而你能夠將各種數據的處理、分析和應用,應用到這個平台上。從這個意義上說,任何數據處理和分析的框架、應用,包括深度學習的應用,都要能夠非常好地和Apache Hadoop為標準的數據平台交互。


第三個趨勢,深度學習的模型只是整個流程的一部分,要構建和應用深度學習模型,還有數據的導入、數據清洗、特徵提取、對整個集群的資源的管理和各個應用之間對這個資源的共享等,這些工作事實上佔據了機器學習或者深度學習這樣一個工業級應用開發的大部分的時間和資源。所以,數據處理、機器學習,以及算法必須很好地和現有的大數據處理的工作流整合在一起。

戴金權深刻感覺到,在大數據處理工作和深度學習模型算法之間有很大的斷層。深度學習頂尖研究人員不斷在突破模型,但是數據科學家、分析師、普通用戶卻很難將模型應用到現實的生產環境當中去。深度學習處理的一大瓶頸就是數據,特別是生產數據,都是採用分佈式存儲,很難將其拷貝到另一個環境再來進行處理。

在戴金權看來,Apache Spark是業界最廣泛應用的分佈式集群計算引擎,它裡面有大量的對數據分析處理的組件,比如說SQL的處理、實時流的處理,還有進行圖分析的庫。

基於Spark推出的BigDL是Spark上標準的庫、標準的組件,能夠和這些大數據、生態系統裡面的不同的分析、處理的組件非常好地整合在一起。BigDL與目前主流的深度學習框架Caffe、Torch、TensorFlow所能實現的功能相同。雖然市面上已經有主流的深度學習框架,英特爾推出BigDL則是因為看到了將大數據分析與人工智能結合起來的一個空白點。BigDL可以直接在現有的Hadoop和Spark的集群上運行,不需要對集群做任何修改。

戴金權告訴雷鋒網:「我們看到有另外一個很重要的應用場景,沒有被這些現有的框架所覆蓋到,我們有大量spark用戶,從2007年開始開源開發,十年間已經成為了業內數據存儲處理分析的標準,大家都已經建立了大數據集群,上面有大量的數據,集群可能幾千台,互聯網公司可能幾萬台這樣的規模。

為了深度學習和人工智能應用,難道是要把這套大數據集群完全拋棄,再另外建一套新的系統嗎?我覺得其實並不是一個最合理的路徑,從某種意義上來說,應該在你現有的大數據的平台,大數據的集群上面,能夠將新的深度學習、人工智能的技術,能夠加進來。」 

Analytics Zoo

自2017年1月英特爾開源BigDL起,已經有廣泛的合作案例。在去年年中,戴金權的團隊在Apache Spark和BigDL的基礎上又構建了Analytics Zoo大數據分析和人工智能的平台。 

差不多是在BigDL開源半年後,戴金權開始着手Analytics Zoo的構建。他談到,在跟很多客戶合作BigDL時,他感到,BigDL、Tensorflow這些框架里最終的AI應用還是有很長的距離。

應用開發本身是非常複雜的工作流水線,戴金權思考如何才能提供像Spark上的Streaming這樣很方便地對特徵進行處理的流水線,提供內置的模型、特徵工程操作、遷移學習的流水線的支持。Analytics Zoo正是這樣一個更高級別的數據分析+AI平台,能夠利用Spark的各種流水線、內置模型、特徵操作等,方便用戶構建深度學習端到端應用。

某種意義上它是Spark和BigDL的擴充,它的目的是方便用戶開發基於大數據端到端學習的應用,除了內置的模型、內置的一些非常簡單的操作之外,它裡面還提供了大量的高級的流水線的支持,能夠使用Spark DataFrames、ML Pipelines的深度學習流水線,能夠通過遷移學習的API構建API模型的定義,在這個基礎上就可以很方便地將我們提供的Model Zoo的模型甚至端到端的參考應用,比如說異常檢測等等,可以通過非常少的代碼,使用這些高級的API,並且使用內置的模型,很方便地就能將一個端到端的大數據分析加上深度學習的應用構建起來。

合作案例

戴金權介紹了用戶如何使用Analytics Zoo for BigDL在他們現有的大數據集群,通常是有非常大規模的至強的處理器上應用大數據的集群或者平台上,構建新的深度學習的應用。

目前,BigDL和Analytics Zoo的技術能在包括AWS、阿里雲、百度雲等幾乎所有的公有雲平台上使用。

第一個例子是英特爾與京東展開的合作。京東有大概幾億張的圖片存儲在分佈式存儲系統當中,他們想要把這幾億張圖片從大數據系統裡面讀出來,然後對它進行處理。在這個案例中,用了SSD的模型來試圖識別圖片裡面有什麼物品,探后再用DeepBit的模型,將物品的特徵提取出來。原來京東已經在GPU卡上做了一些應用,但是這裡面有一些問題,包括如何處理端到端數據的流水線,包括如何提高端到端處理的效率。戴金權介紹到,「當我們把整個處理的應用遷移到Spark和BigDL平台上,可以看到它提升了很多的運維的效率,使用BigDL/Spark在Intel Xeon(英特爾至強可擴展處理器)集群有效擴展,取得相對於GPU集群3.8倍性能提升。」   

AI的三個核心點在大數據、算法、算力,現在很多人認為要有足夠的AI算力,非GPU不可。京東的這個案例體現了BigDL與英特爾至強可擴展處理器配合,對整體深度學習表現的提升。戴金權告訴雷鋒網,京東這個案例一開始是建立在多個GPU之上的,他們的團隊在Caffe上訓練,在開發、部署、性能方面都碰到問題。英特爾將京東方面遷移到Spark上面,跑在1200個邏輯的核,一台服務器支持50個邏輯,大致用了24台服務器,利用Spark這樣的端到端流水線處理,與之前用GPU的方案相比可以達到差不多3.8倍的性能提升。

第二個案例是英特爾和MLSListings合作的案例,他們是加州的不動產交易商,他們可以識別用戶瀏覽的房屋圖片,為用戶推薦相似的房屋。這套系統構建在Microsoft Azure上。  

第三個案例是和世界銀行在AWS上合作。世界銀行通過志願者上傳的世界各地的食物圖片,幫助大家來分析在世界各地的物價水平。其中如何通過大數據處理對圖片進行清洗、處理,再用遷移學習來構建圖片分類模型是值得關注的問題。

第四個案例是與UCSF的合作,通過3D的模型對醫療圖象進行分類,首先對3D的MRI照片進行識別,然後對它進行分類,可以試圖診斷膝蓋上面的一些病症。

第五個案例是們和Cray公司(美國做超級電腦的公司)合作。合作內容是做近期的降水雲圖的預測,通過Seq2Seq的模型,把過去一小時的衛星雲圖做了一個序列,輸入到模型裡面,能幫預測下一個小時每10分鐘這個衛星雲圖的變化,通過這個來進行一些降水的分析。

第六個案例是和GigaSpaces合作的通過基於自然語言處理對呼叫中心進行管理。當有用戶打電話進來,把其語音轉成文本以後,導入到BigDL系統裡面,然後對它進行實時的流式處理,使用BigDL上的文本分類模型可以知道用戶打電話進來是為什麼,他是Windows出了問題還是Mac出了問題,自動就會把呼叫中心的電話錄入到不同的部門。

最後,戴金權總結到,英特爾致力於端到端全棧人工智能解決方案。BigDL和Anaylitics Zoo致力於架起大數據和人工智能之間的橋樑,當用戶已有基於Apache的大數據集群,就可以很方便地進行大數據分析和上人工智能應用,不僅能夠有更高的資源利用率,還可以提升端到端的開發效率,以及提升部署效率。

  


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems