題圖來源@視覺中國
2017年馬雲接受Bloomberg專訪時曾說出金句,「數據的重要程度堪比上個世紀的石油。」相比於傳統企業,大數據逐漸成為互聯網公司最重要的資產、也連接着旺盛的企業級需求。
圍繞大數據,大型互聯網企業和初創企業「百家爭鳴」,服務範圍涵蓋大數據應用、硬件、技術等等,幫助企業將數據能力與業務結合,提升效率、降低成本乃至最終提升盈利能力。隨着數據爆炸性增長、雲端概念普及,近兩年來,大數據的雲端服務逐漸成為企業新的必爭之地。
這其中,出現了Alluxio——世界上第一個能以內存級速度集成數據的軟件系統。它介於計算框架及存儲系統之間,給大數據軟件棧帶來了顯著性能提升。
據悉,2016年初,Alluxio曾獲得硅谷知名風險投資機構 Andressen Horowitz的750萬美元融資。
7月31日,分佈式虛擬存儲系統Alluxio發佈1.8版本,加速針對數據分析及機器學習的雲端部署。
百度、華為等互聯網巨頭背後的數據管理者
Alluxio的技術脫胎於其創始人李浩源博士在加州大學伯克利分校AMPLab的博士課題、開源研究項目Tachyon。它能夠在大數據應用層及存儲層之間搭建一個虛擬數據層,讓企業能夠利用這個系統來使用和管理不同的數據應用及存儲方案。此前,全球知名的現象級開源軟件Spark及Mesos同樣出自AMPLab,只是不同於針對存儲的Alluxio,前者專註於計算,後者則專註於資源管理和調度。
由於擁有內存級的訪問速度,Alluxio系統比過去的方案快了十倍甚至數十倍。
Alluxio在數據生態系統中的位置
創建五年後,Alluxio目前已經是最活躍的數據生態系統開源項目之一,解決數據問題的能力備受信任。
在中國市值排名前十的互聯網公司中,已經有八家在應用Alluxio的技術方案,管理PB級別的數據。除此之外,華為、聯想、中國電信、京東等公司也都在用它來管理數據,其他重量級合作夥伴包括英特爾、三星、微軟、Nvidia、Oracle等等。
百度是最早大規模使用Alluxio的大公司之一,2015年就開始接觸Alluxio(當時的名字還是Techyon)。此後兩年內,Alluxio在商用領域發展迅速。2017年,騰訊、京東、蘇寧等重量級公司開始大規模使用Alluxio的服務。
Alluxio已經經曆數次版本更替。此次更新主要針對雲端及開源社區,希望能進一步支持不同的雲端存儲方案,加速數據儲存、調取和使用的速度,解決深度學習面臨的數據存儲問題;與此同時,給他們非常重視的開源社區提供更多的支持和幫助。
針對雲端部署,Alluxio的新版本有三個全新功能:
- 感知定位的數據管理工具。企業可以為數據應用設置不同的策略,根據數據的位置標記來選定具體的數據調用區域或者優化數據分佈,從而降低調用不同存儲位置的數據時的成本、提高效率。
- 針對不同雲端存儲方案的優化。解決對象存儲或者雲端存儲方案和傳統的HDFS(Hadoop Distributed File System)方案中的API及執行效率的差別帶來的問題;也讓把數據從HDFS轉移到對象存儲時更加容易,真正做到在雲端輕便地轉移數據。
- FUSE(Filesystem in Userspace)界面。FUSE能把雲上的數據緩存在本地,通過普通的本地文件夾展現,以無縫支持現有的機器學習和大數據分析框架來存取雲端數據。
新版本重點一:「往雲上走」
此次Alluxio版本更新,順應了企業「往雲上走」的趨勢。
近幾年,不僅有層出不窮的雲端數據存儲、計算和分析創業項目提供服務,大公司也在尋求更好的雲端部署方案。
2018年6月,微軟收購知名開源開發平台GitHub后,並表示將進行GitHub與自己的雲服務產品Azure Cloud的整合。分析報告預測,未來雲服務市場將從今年的281億美元增長到2021年的533億美元。
「數據分析和機器學習的興起讓雲端的計算量大量增長,Alluxio的特性意味着它同樣可以很好地管理混合雲的數據。」李浩源對鈦媒體說道。451Research的報告顯示,預計在2019年,超過66%的企業會使用一個混合雲或者多個雲服務方案的架構,它們都可能面對不同雲服務上迥異的操作差異,單憑自己很難保證效率,需要第三方服務方案的協助。
更遠的未來里,中小型企業可能會徹底轉向公有雲部署。
Gartner預測,到2021年,全球超過50%的企業會應用純粹的公有雲存儲方案,而更大的公司則會應用更多的第三方雲端基礎架構來管理混合雲。
這和李浩源的判斷相符。他認為,對於很多現代企業來說真正的價值往往在數據里。
尤其是對於某些大型企業來說,最核心的數據管理很難假手於人。
Eric Anderson(時任Google產品經理)談Alluxio
「總有一些數據他們希望保存在本地服務器上,但全部放在本地成本又太高,所以選折中方案,在一個無縫的架構下管理私有和公有雲是一個剛需。」李浩源說道。
除此之外,Alluxio也希望能解決近幾年火熱的數據分析及深度學習面臨的數據存儲問題。
對於數據分析來說,已經有了不少使用雲上數據的方案,Alluxio只是能幫助提高性能、降低費用。
對於深度學習,問題則稍顯複雜。
「不是所有的訓練數據都能直接用於像Tensorflow這種深度學習框架,另外各類分佈式存儲和雲存儲的交互方式和傳統本地交互方式有很大區別,用戶難以準確地配置和使用新工具。」舉個例子,沒有Alluxio時,讓深度學習框架TensorFlow訪問微軟雲服務Azure Object store上的數據就是一件難以完成的事情。
Alluxio的特性意味着它能整合各類存儲系統,縮短各類深度學習框架與存儲層之間的距離,提高效率及彈性、降低成本。另一方面,這次更新里的FUSE工具則讓Alluxio可以掛載本地文件系統,讓用戶在使用遠程雲端分佈式存儲時,擁有和本地數據時相似的交互體驗。
新版本重點二:關注開源社區
除了針對雲端部署及深度學習的更新之外,Alluxio的新版本還有另一個重點:為開發者提供了更多便利。包括:
- 提供針對應用運行的數據服務監視工具,包括能夠獲取集群實時數據的web圖形界面以及命令行界面(Command Line Interface)工具,讓開發者能夠更好地了解數據的使用情況、分析性能結果並獲得數據洞察。
- 更完善的生態系統集成。把對數據服務的追蹤和洞察擴展到不同的應用層和存儲層,開發者可以通過新的工具直觀地看到存儲系統中的問題,比如延時的直方圖和存儲空間利用率。
- 一個入門套件(Starter Kit),其中包括預建的代碼及其他文件和一些簡單的案例展示,包括「如何在本地機器上安裝Alluxio」「如何安裝和設置AWS S3 Bucket(存儲桶)及加速遠程讀取」,讓開發者能更快地上手並使用Alluxio。
「開源社區是我們最珍視的事情之一,所以希望儘可能地幫助開發者理解和使用這個系統。」李浩源說道。他認為,自創立之初,這一社區帶來的活力是推動Alluxio迅速進展的重要推力之一。
在2016年接受CSDN採訪時,Alluxio曾表示「Alluxio是史上成長速度最快的開源社區之一」,如今其貢獻者已經超過800人,在GitHub上星標超過3000個。
正在比賽氣泡足球的部分Alluxio團隊成員
這個項目里還有不少活躍的公司貢獻者,他們還能提供針對具體產品和應用場景的反饋。
英特爾、騰訊、阿里巴巴、百度、京東、陌陌等公司同樣也是這個開源項目的貢獻者之一 。比如陌陌的工程師團隊會基於陌陌的應用場景,做出適配和調整,而後經過Alluxio的社區管理者審核後接納,「最終形成一個正向的反饋,是一個雙向改進的過程」。
百度、去哪兒和陌陌都曾經就應用Alluxio之後的經驗做出分享。百度此前分享時表示,在用他們自己開發的使用Spark SQL作為計算引擎的查詢系統時,單獨一次查詢需要100-150秒;加上作為內存中心的存儲層的Alluxio之後,數據可能會衝擊本地或遠程Alluxio節點,需要10-15秒;當所有數據儲存在Alluxio本地時,平均只需5秒,速度提升了30倍。測試過後,百度圍繞 Alluxio和Spark SQL建立了一個完整的系統。
「過去的一年中,Alluxio一直在數據基礎架構內穩定地運行,很少出現問題。這給了我們很大的信心。」在接受ReadWrite專訪時,百度高級架構師Xiaoshan Liu說道。
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App