這一成績直接將一眾大咖加持的開源的模型踩在腳下,包括但不限於扎克伯格同學旗下的LLaMA、新晉明星獨角獸Stability AI等公司。其中,LLaMA的模型規模甚至更大,達到了65B——比Falcon-40B大出了50%。

按照國際通用慣例,網友們少不了又要拉踩一把扎克伯格。
Hugging Face過去一直被認為是大模型領域GitHub,在人類大模型的開源事業的道路上不遺餘力,被一些觀察者認為是OpenAI最具潛在挑戰能力的平台。因此Hugging Face的榜單,被從業者給予了很高的參考價值。
按照Hugging Face方面表示,其整個榜單使用Eleuther AI Harness的評估框架,被分成四個標準:
25個小樣本的推理邏輯測試(ARC:AI2 Reasoning Challenge)、10個樣本的嘗試推理測試(HellaSwag)、5個樣本的多任務準確性測試(MMLU)以及誠實測試(TruthfulQA)而在全部四項打分中,如圖一所示,除了誠實測試表現相對一般外,其他三項都大幅領先對手。而在新推出的instruct版本中,誠實性能力也跟上來了。
Falcon備受外界關注,原因主要有幾點。
一方面,如果僅以這個榜單數據來看,Falcon相比於友商的提升幅度很大。LLaMA-65B之後的排序的分差往往在0.3分以內,但Falcon-instruct直接提升了3.4分。
另一方面,Falcon與馬斯克的火箭重名,但其實是目前為數不多的非西方國家實驗室開發的開源大模型產品。Falcon背後的研發方來自阿聯酋的阿布扎比技術創新研究所(TII),這也是中東首個世界頂級的大模型產品。
TII的背後則是阿布扎比先進技術研究委員會(ATRC),因此是阿聯酋政府官方扶持技術創新項目。
而根據阿聯酋通訊社的報道,Falcon-45B使用了1萬億個token進行訓練,可以用更少的訓練計算能力實現更優的效果,其僅相當於OpenAI GPT-3訓練計算的75%,DeepMind Chinchilla人工智能的40%,谷歌PaLM-62B訓練計算的80%。
阿聯酋通訊社進一步表示,作為開源的大模型工具,Falcon-45B的出現:
「強化了阿聯酋作為全球AI領導者的角色」。
目前來說,Falcon-40B雖然是開源大模型的第一名,但是和「不Open」的OpenAI相比,還有相當大的差距。而在越來越公司對開源保持謹慎態度的情況下,Falcon獲得「開源大模型第一」其實也算是「撿了個漏」。
不過很快有從業者發推特質疑Hugging Face的評價體系。
有Inflection AI員工發推認為Hugging Face得出的數據與論文的評分有一定的差異。在這條質疑下面,前特斯拉AI負責人、OpenAI元老級人物(founding member)Andrej Karpathy跟進評論:
「這就是我目前避免評論falcon的原因」。
Andrej Karpathy曾經是李飛飛的高徒、全球頂尖的AI科學家,對OpenAI的發展起到了很大的作用,也一手推動了特斯拉自動駕駛項目的發展,可以說是特斯拉autopilot之父。
當他對hugging face的標準提出質疑時,這並不能被認為是一個輕飄飄的指控。
果然hugging face聯合創始人Thomas Wolf聞風而至,對同行進行了友善的科普,表示他們的使用的評價工具的準確性是可靠的。
這其中詭異的點在於,hugging face的榜單不是一天發出的,Eleuther AI Harness也是一個主流的評價體系。但當Falcon沖榜后,卻出現了兩位對評價體系「不理解」、「不確定」的「外賓」。
看來硅谷還不是很適應來自中東的神秘科技力量,對這種「新鮮事物」條件反射地用審視的眼光去打量。
不過,Falcon-40B最大的爭議或許不是來自於能力,而是來自於其對「開源」事業的「誠心」。
因為Falcon對商業化開源留了一個「後手」,雖然使用者原則上免費,但如果收入超過100萬美金,依然需要繳納10%的授權費用。
但由於falcon的許可證其實部分基於 Apache License Version 2.0。後者來自 Apache 基金會,對商業開源是友好的。那如果falcon拿着免費開源的許可協議,未來依然會收取一定的商業化費用,這似乎依然算不上真的「開源」。
大模型確實很燒錢,即便貴如中東土豪,也不希望徹底的開源。
而根據TII方面的消息,阿聯酋方面預計將很快發佈新的Falcon-108B的千億級大模型。
無論是開源和閉源、西方和東方、科技投資和石油資本,屆時圍繞大模型的科技競爭可能會變得更有意思。
圖片來源:網絡