李開復公司陷入LLaMa架構命名爭議,零一萬物回應:將進行代碼更新|最前線

.. 文|林煒鑫

編輯|鄧詠儀

11月初新發佈的大模型「Yi」這兩天捲入一場爭議。科技新聞社區Hacker News的一篇帖子指出,Yi-34B模型完全使用了LLaMa的架構,只是重新命名了兩個張量(Tensor,通常用來表示模型的輸入、輸出和參數),卻未提及LLaMa。

帖子引起業內關注

「Yi」是由李開復創辦的AI公司「零一萬物」打造的國產開源大模型,擁有200K上下文窗口,可處理約40萬字文本。自推出后,零一萬物表示,Yi模型在Hugging Face英文開源社區平台和C-Eval中文評測榜單中,取得多項SOTA國際最佳性能指標認可,成為第一家登頂Hugging Face全球開源模型排行榜的國產模型。

零一萬物昨日回應表示,Yi模型的研發借鑒了行業頂尖水平的公開成果;之所以改名是為了滿足訓練實驗的需求;團隊將更新代碼。

這場爭議的源頭是零一萬物Hugging Face社區的一條留言。一位ID名為「ehartford」的工程師數天前便發現了這個問題,並指出,由於meta在LLaMa架構投入大量成本,有必要在代碼中保留LLaMa的名稱。

ehartford朝Yi團隊喊話

有開發者跟帖道:「如果他們確實用了Meta LLaMa結構、代碼庫和所有相關資源,需要遵守LLaMa規定的許可協議。」

而LLaMa的許可協議里提到,開發者有義務提供一個「Notice」文本文件,保留LLaMa的版權歸屬。

因此,另一位開發者動手把張量名字改了回去,重新放到Hugging Face上。

很快,有人翻出了前阿里首席AI科學家、 AI創業者賈揚清的朋友圈:

賈揚清朋友圈

需要區別的是,Yi引發的爭議在於其模型架構的命名,與抄襲、簡單套殼有本質區別。LLaMa本就是開源的模型,使用LLaMa的架構是正常的大模型訓練步驟,即使是選擇同一種架構,用不同數據集訓練出來的模型也會截然不同。

一位開發者則向36氪表示,外界苛責的是使用開源LLaMa-2模型架構,卻改了名字,「好比造了跟奔馳一樣的車,把牌子換了名字,把方向盤改為動力控制轉向器」。在他看來,用了LLaMa架構,「大方承認就好」。

有開發者曬出Yi和LLaMa的代碼對比

昨天下午,「Yi」團隊開源總監在Hugging Face社區回復,命名問題是團隊的疏忽,「在大量的訓練實驗中,我們對代碼進行了多次重命名以滿足實驗要求,但在發佈前沒有將它們切換回來」。他表示,團隊將把張量名字從Yi改回LLaMa,並且重新發佈。

Yi團隊在社區上的回應

附零一萬物給機器之心的回應:

GPT 是一個業內公認的成熟架構,LLaMa 在 GPT 上做了總結。零一萬物研發大模型的結構設計基於 GPT 成熟結構,借鑒了行業頂尖水平的公開成果,同時基於零一萬物團隊對模型和訓練的理解做了大量工作,這是我們首次發佈獲得優秀結果的地基之一。與此同時,零一萬物也在持續探索模型結構層面本質上的突破。

模型結構僅是模型訓練其中一部分。Yi 開源模型在其他方面的精力,比如數據工程、訓練方法、baby sitting(訓練過程監測)的技巧、hyperparameter 設置、評估方法以及對評估指標的本質理解深度、對模型泛化能力的原理的研究深度、行業頂尖的 AI Infra 能力等,投入了大量研發和打底工作,這些工作往往比起基本結構能起到更大的作用跟價值,這些也是零一萬物在大模型預訓練階段的核心技術護城河。

在大量訓練��驗過程中,由於實驗執行需求對代碼做了更名,我們尊重開源社區的反饋,將代碼進行更新,也更好的融入 Transformer 生態。

我們非常感謝社區的反饋,我們在開源社區剛剛起步,希望和大家攜手共創社區繁榮,Yi Open-source 會盡最大努力持續進步。

歡迎交流


想在手機閱讀更多李開復資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems