快手的推薦系統背後,英特爾做了什麼?

大數據時代,個人信息越來越透明,以至於手機APP都能讀懂你我的心思,甚至能將信息精準地送達到每一個移動端。APP開發者將其稱之為「算法推薦」,商家將其稱之為「個性化定製」。有人為推薦機制津津樂道,「原來手機比男朋友更懂我」,聽到更多合口味的音樂,看更多愛好的視頻;也有人感嘆其恐怖,擔心陷入算法布局好的陷阱,陷入信息繭房。

價值巨大的推薦系統

雖然我們開始警惕推薦機制可能帶來的危害,但對於企業而言,推薦機制蘊藏着巨大的價值,推薦系統的加速不會停止。

根據王喆老師的論文《深度學習推薦系統》[1]中的例子,2019年天貓「雙11」的成交額是2684億元,天貓推薦系統實現了首頁商品的個性化推薦,其目標是提高轉化轉化率和點擊率。假設推薦系統進行了優化,整體的轉化率提高1%,那麼增加的成交額大約為26.84億元。由此可見,相比於對信息繭房的擔憂,互聯網巨頭當然是更關心這筆數目不小的收益增長,進一步加速各自的推薦系統,短視頻玩家快手也不例外。

根據快手官網數據顯示,2015年6月,快手的單日用戶上傳視頻量突破260萬;2016年4月總用戶數突破3億。截止目前為止,快手累計200億條短視頻庫存,每天仍有超過1500萬條視頻新增、千億條視頻曝光,早已從一個Gif生成工具蛻變成為一個日活3億、日播放量200億的短視頻社區。

當構建起龐大的數字世界后,快手需要面對的問題是,如何在承載高峰期每秒數十萬併發調用量的同時,從上億級別的短視頻庫中,通過千億參數級別的深度模型向不同的用戶對象推送合適的內容,即其推薦系統的加速問題。

   

為此,快手基於異構設備構建了計算與存儲分離的推薦系統架構。在該架構的內部,主要由兩部分任務組成,一部分是包括推薦服務、預估服務、召回服務在內的計算敏感性服務,另一部分是包括用戶畫像、參數服務器以及分佈式服務器索引的存儲敏感性服務,這些模塊需要實現大容量內存的數據存儲及快速的數據訪問。

提升訓練速度的英特爾Cooper Lake

實際上,推薦系統加速的本質,一方面是人工智能應用的升級,機器需要對圖片、視頻等信息進行學習和分類;另一方面,則是對存儲和訪問的進一步需求。

今年6月,英特爾推出的第三代至強可擴展處理器Cooper Lake就是專為當今內置人工智能數據密集型服務而設計的處理器。雷鋒網了解到,英特爾第三代可擴展處理器進一步升級了DLBoost深度學習加速技術,同時,在深度學習加速架構下的VNNI神經網絡指令支持bfloat16數據格式。與上一代平台Cascade Lake最頂級的CPU 8280相比,在圖像分類處理上,Cooper Lake的計算性能提升1.93倍。

在對人工智能的支持上,區別於第二代至強可擴展處理器支持的Int8數據格式和傳統的FP32數據格式,bfloat16數據格式是採用16位存取一個數據,包括1個符號位,8個指數和7個尾數位,同時保證了數據的範圍和精度。

雷鋒網了解到,雖然bfloat16的精度沒有FP32的精度高,但是7位尾數對於大多數人工智能的推理計算模型而言,精度已足夠使用。英特爾技術人員透露,相比於上一代基於FP32數據格式做訓練,VNNI搭配bfloat16能使訓練性能提高93%,推理性能提高90%。

Cooper Lake或將是快手加速推薦系統的好選擇。

依託傲騰持久內存,加速存儲與訪問

更好地存儲與訪問,是快手在加速推薦系統過程中,需要面臨的另一個問題。

在傳統的存儲架構中,大容量持久化存儲主要在硬盤或者固態盤中,對於快手的推薦系統而言,尤其是參數服務器和分佈式索引服務,從硬盤或固態盤中索引數據,工作量大,時延長。若將索引工作直接在內存中進行,就會降低訪問延時,提高推薦系統的響應。

不過,在內存存儲金字塔中,金字塔頂端的存儲方案,性能高,存儲低,單位容量成本高,金字塔低端則是容量大、性能低,成本低的存儲方案,存在斷層現象,比如常規的DDR4的內存和NAND的閃存,訪問的延遲相差1000倍,典型的容量相差100倍,而單位容量的成本相差10倍。這一斷層現象導致很多應用在選擇方案時,難以找到比較平衡的設計。

基於這一難題,英特爾推出了傲騰持久內存,與上一代產品相比,其內存帶寬提升25%,若搭配之後發佈Ice Lake的平台,每處理器可帶來4.5TB的總內存容量。同時,在做數據寫入時,其訪問延遲只有幾百納秒,而一個普通的NAND SSD的訪問時間則在100微秒左右。

英特爾技術專家介紹,英特爾第三代至強可擴展平台與傲騰持久內存結合,可將服務器上每個節點的容量從原來的幾百GB擴展至TB級別,例如一個4路、4個插槽的第三代至強可擴展處理器平台,每個插槽都搭配傲騰持久內存,支持的最大內存就可達到18T。

基於此,快手率先與英特爾展開合作,結合英特爾至強可擴展處理器平台和傲騰持久內存,快手推薦系統性能及TCO得到了優化和提升。不僅大大降低了數據訪問延遲時間,還縮短了系統故障恢復時長。

同時,傲騰持久內存與DRAM內存性能表現相似,前者相比於後者更具成本和容量優勢。因此在同英特爾的合作中,快手推薦系統的總擁有成本(CTO)降低了30%。

除了在推薦系統方面同英特爾合作,改善存儲與訪問速度之外,快手也正在同英特爾探討成立聯合實驗室,推動業務創新及升級數據中心。

作為推薦系統的受益者,快手或將在進一步加速生態系統的過程中再次嘗到甜頭。

[1] 王喆,《深度學習推薦系統》,電子工業出版社

雷鋒網雷鋒網雷鋒網


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems