螞蟻「隱語」開源,邁過隱私計算的「界河鴻溝」

摘要:只有開源的隱私計算,才足夠被信任。

作者:李揚霞

編輯:林覺民

這是螞蟻在隱私計算領域邁出的嶄新一步。7月4日下午,螞蟻集團宣布面向全球開發者正式開源可信隱私計算框架「隱語」。自2016年起,螞蟻就開始推進隱私計算技術及其規模化應用,而「隱語」幾乎涵蓋了當前所有主流隱私計算路線,可滿足各場景不同需求。

過去兩年,國內大批隱私計算廠家湧入隱私計算領域,而以螞蟻集團等為代表的「大廠」科技公司因為較早入局,逐漸成為隱私計算市場的主力。此前曾有機構預測,隱私計算是一個百億級的市場,但根據最新IDC調研發現,從收入形態而言,市場收入主要來源於產品售賣或平台建設方面,大量技術服務商的營收規模仍然處於億級以下水平。

原本百億市場規模的隱私計算市場,為何營收過億的服務商寥寥無幾,即便是較早入局的隱私計算廠家也沒能取得優勢。隱私計算雖然能在不知「富翁」財產的情況下計算出誰更有錢,但應用場景落地難的問題,也成為該領域進一步發展的「界河鴻溝」。

究竟是技術開發使用門檻高、抑或是數據要素行業原本就存在互信難、確權難、監管難、定價難等問題,我們無從辯駁。但有一點可以明確,該技術如果只掌握在少數寡頭手裡,我們還是實現不了真正的數據流通,而唯有「開源」是降低門檻的一個有效手段。

「隱語」框架負責人、螞蟻集團隱私智能計算部總經理王磊也告訴雷峰網:「不開源的框架是得不到用戶信任的,這也是隱語開源的原因之一。」

1.隱語開源「恰逢其時」

數字經濟時代,數據成為新的生產要素,數據只有流通和共享才能發揮更大的價值,那麼如何讓數據發揮價值的同時又能保護數據的安全和隱私?隱私計算技術(又稱:隱私保護計算)就像一個「引彈」,讓整個業界開始沸騰。

準確來說,隱私計算不是一種技術,而是多種技術融合的統稱,包括TEE(可信執行環境)、MPC(安全多方計算)、聯邦學習、同態加密等。也正是因為其技術路線的複雜性以及高昂成本,讓眾多企業望而卻步。

舉一個例子 ,在隱私計算技術的開發過程中,開發者需要有一個技術框架,用來基於實際業務場景、以及功能來設計。而實際情況是,如果開發者想使用聯邦學習,那麼就要使用A框架來做研發;如果想使用多方安全計算,那麼又要使用B框架來做研發,如果想使用可信硬件,還要去熟悉所選硬件的架構才能真正開始使用。但現實的業務需求是,經常是需要多個技術一起來使用的,那麼這時候就會出現繁瑣、重複的開發工作量。

而「隱語」可以讓開發者收穫「開箱即用」、更加兼容通用的開發體驗。同時,提供豐富的聯邦學習算法和差分隱私機制,技術能力涵蓋了多方安全計算、聯邦學習、同態加密、差分隱私、機密計算等,供開發者靈活選擇,開發者可以簡單、快速上手,大大降低了算法、研發技術人員使用隱私計算技術的門檻。

「隱語」開源恰逢其時。開源一方面可以規避後門風險,破除信任難題;另一方面開放透明人人可以參與,系統的可持續發展性得到保障。

而在王磊看來:首先從技術層面,如果別人看不到我們的代碼,就不能確認產品的安全性,那又談何信任。只有以開源共享的方式,吸引更多優秀的開發者加入,才能凝聚技術合力降低隱私計算開發者和使用者的技術門檻。

其次從產業層面,只有整個隱私計算行業發展好了,我們才能做更多的事情。隱語開源,就是希望能夠通過開源共享回饋行業,推動技術產品化、規模化應用落地,構建商業生態,最終推動整個隱私計算行業的發展。

目前,「隱語」已向社區開放了多方安全計算和聯邦學習的核心代碼。對於算法/模型研發開發者,可以使用隱語提供的編程能力,方便快捷地將更多算法和模型遷移來,並得到隱私保護增強。對於底層安全開發者,可將底層密碼/安全研究成果嵌入隱語,完善密態設備的能力、性能和安全,轉化實際業務應用。

2.隱語開源的底氣

當隱語框架2年前決定開源,就註定踏上了一條不平凡之路。

螞蟻集團副總裁兼首席技術安全官、隱語開源指導委員會主席韋韜曾表示:「2022年整個數據行業將邁向「數據密態時代。」過去在數據要素行業,數據易複製,而明文流通易導致分發失控。若數據以密態形式流通,可以保障其流轉、計算、融合到銷毀全鏈路安全可控;並保證數據要素持有權和使用權分離,進而支持數據要素產業更加安全健康的發展。

邁進數據密態時代,螞蟻集團看到,隱私計算技術需要進一步升級,「可信隱私計算」是非常重要的方向。而隱語毫無疑問成為了其技術支撐底座。

在經過螞蟻集團內部大規模業務以及外部金融、醫療等場景的淬鍊,可信隱私計算框架「隱語」,擁有了卓越的安全性和性能,可支持大規模數據集。具體來看主要有以下幾大優勢:

完備性:針對隱私計算技術方向多,且各方向優劣勢不同的問題,通過密文計算設備對不同技術進行抽象,使得同一套框架能支持所有主流的隱私計算技術,且可以靈活組裝,以適應不同場景的需求;

透明性:針對隱私計算技術底層技術與上層應用耦合性強,導致每種底層技術的更新都重複開發上層應用的問題,通過編譯器和IR層的抽象,將底層協議與上層應用分離,上層可以對接傳統數據處理的SQL、Pytorch、TF、JAX框架,底層安全協議和技術的更新上層不感知;

開放性:針對當前隱私計算沒有可以容納多方共同參與開發的良好抽象的框架,通過明密文編程範式的抽象,使得非安全背景的開發者也可以開發出安全的隱私計算算法;

聯通性:針對多種隱私計算技術無法互通的問題,採用混合協議設計,使得不同隱私計算技術之間的數據也可以相互聯通,讓組建大型數據網絡成為可能。

隱語所做的事情,一方面是將隱私計算所涉及的各主流技術分支分別抽象為加減乘除等具備基礎功能的「設備和原語」,基礎符號越多意味着組合計算的方式越多;另一方面,是繼續向上建設AI & BI 隱私算法層,提供像勾股定理一樣的具備特定功能的公式,這些公式開箱即用,可供我們在解決完整的應用題時自由調用。

本次隱語的開源內容如上圖中的點亮模塊,主要包含以下要點:

1.MPC設備。支持大部分Numpy API,支持自動求導,提供LR和NN相關的demo,支持pade 高精度定點數擬合算法,支持 ABY3、 Cheetah 協議。用戶可以採用傳統的算法編程模式,在不了解MPC協議的情況下開發出基於MPC協議的AI算法;


2. HE設備。支持Paillier同態加密算法,向上層提供Numpy編程接口,用戶可以使用Numpy接口做矩陣加法或者明密文矩陣乘法運算。且實現了與MPC密態設備之間的數據可流轉;


3. 差分隱私安全原語。實現了一些差分隱私噪聲機制、安全噪聲生成器、隱私開銷計算器;


4. 明密文混合編程。支持中心化編程模式,使用@device標記構建明文和密文設備混合計算圖,基於計算圖進行并行、異步任務調度;


5.數據預處理。提供水平場景下的數據標準化、離散化、分箱功能,提供垂直場景下的相關係數矩陣、WOE分箱功能。無縫對接已有的dataframe,提供和sklearn一致的使用體感;


6. AI & BI 隱私算法-多方安全計算。提供水平場景下的XGBoost算法、新增垂直場景下的HESS-LR算法,並結合差分隱私增強了對拆分學習的隱私保護;


7.AI & BI 隱私算法-聯邦學習。提供聯邦學習模型構建和包括SecureAggregation,MPC Aggregation, PlaintextAggregation在內的多種安全模式的梯度聚合,用戶只需要在模型構建時給出參與方list和聚合方法,之後的數據讀取,預處理到模型訓練的體驗和傳統明文編程幾乎一致。

目前,隱語框架已經制定了後續版本將逐步開源的既有內容;隨着隱語開源,更多的需求和建議將被提出,隱語這一社區將探索更大的成長空間。

3.六年規模化應用探索之路

隱私計算目前面臨著定製化程度高、沒有標準化的產品,難以規模化發展的問題。王磊表示,「很多時候定製化的產品利潤率非常薄,未來如果要實現隱私計算大規模應用,除了產品標準化之外,還需要做很多超出隱私計算之外的事情,只有大家群策群力才能助力國家數據要素市場化建設。」

2016年,螞蟻的隱私計算就開始了規模化應用探索之路,在這期間螞蟻集團在隱私計算領域逐步推出了摩斯多方安全計算平台,可信隱私計算框架隱語、螞蟻鏈數據隱私協作平台FAIR、螞蟻隱私計算一體機等產品。

據介紹,在眾多產品中,螞蟻隱語主要解決的技術先進性問題,就是底層技術的長期發展。拿摩斯多方安全平台來說,它是一個商業化的產品,所以摩斯跟隱語也可以被認為是上下層的戰略模式,摩斯是上層的隱私計算產品,螞蟻會在其他方面支撐,包括提供螞蟻鏈的計算、隱語技術產品升級等。

另外,隱語框架的另一大亮點,就是集合了阿里巴巴雙子實驗室的Cheetah(獵豹)安全兩方計算協議,該框架性能比目前世界最好的計算方案——微軟CryptFlow2快5倍以上,通信量少90%。阿里巴巴集團安全部資深安全專家洪橙告訴雷峰網:「隱語團隊非常擅長框架能力和機器學習算法,獵豹團隊則擅長密碼技術相關的能力,兩方強強聯合,能發揮隱語和獵豹最大的影響力。」

那麼,螞蟻可信隱私計算框架「隱語」能夠做什麼呢?針對不同的應用場景,螞蟻可以基於隱語的技術框架構建相應的產品。

目前隱語已經在聯合風控、政務數據、聯合營銷等業務場景中得到了成熟的應用。在金融、醫療等領域也有成功的大規模落地經驗、支持了浦發銀行跨機構數據流通、浙江某三甲醫院醫保 DRG(Diagnosis Related Group,疾病診斷相關分組)改革,獲得過中國信通院頒發的 「星河案例」 獎,CCF 科學技術獎科技進步優秀獎、中國網絡空間安全協會 「數據安全典型實踐案例」,入選了工信部 2021 年大數據產業發展試點示範項目名單等。

例如,醫保DRGs分組器初始版本,成功實現多家醫療機構數據進行聯合訓練,在保護患者隱私前提下,增加樣本數量、擴大數據規模,通過更為準確的DRG分類模型幫助醫療機構提升預測準確率,對於優化臨床路徑、規範診療行為、提高服務效率有顯著的作用。

圖:隱私計算框架「隱語」在醫保DRGs建模中應用總體框架

4.開源成為應用落地和生態構建的關鍵

如果一個公司僅僅關注自己的技術而不去關注市場的走向、別人的需求,那麼它往往會做出一些很高端的軟件,但使用者卻少之又少。而螞蟻集團等科技公司,開源自己的學習框架,在提升行業熱度、價值落地和生態構建中發揮着積極的作用。

目前隱語社區已經成立,螞蟻集團及隱語也將在多個方面與開發者、研究者聯動共建隱私計算生態:

其一是圍繞隱私計算這一技術核心通過多種渠道以文字、視頻等多樣的內容,普及這一技術,通過開放的交流探討增強生態中各界之間的粘度;

其二是在普及之上,聯動高校科研等科研機構,形成產業視角與教學視角的結合,打造一套體系化的隱私計算教學材料,助力社會培養會用隱私計算的人才體系;

其三是在會用之上給予實質性的孵化支持,即設立隱私計算科研基金,公開招募、評選、扶持有創新有價值的項目深度發展。

最後,王磊強調:「開源最重要的目標,是能夠吸引更多的人進來一起合作,這不是螞蟻集團一方的事情,而是多方合作的事情,是讓隱私計算行業能夠得到認可,大家都能夠在上面做貢獻,這是比較最重要的一點。」


想在手機閱讀更多網站設計及開發資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems