OpenAI與硅谷獨角獸匆匆「分手」,DeepSeek 是始作俑者嗎?

合作不到一年,人形機械人獨角獸Figure AI創始人兼首席執行官 Brett Adcock 就於日前在 X 上發文,宣布終止與OpenAl的合作協議,並表示:「Figure在完全自主研發的端到端機械人AI方面取得重大突破,我們很高興在接下來的30天內向你展示一些從未在人形機械人上見過的東西。」

2024年2月底,估值達到26億美元的Figure AI宣布與OpenAI合作開發面向人形機械人的下一代AI模型,OpenAI將結合自身研究與Figure AI在機械人軟硬件方面的深入理解,幫助Figure AI的人形機械人提升處理和推理語言的能力。

然而在1月31日,OpenAI向美國專利商標局(USPTO)提交了一份涉及人形機械人的商標申請。而在去年11月,OpenAI還被曝正在重建曾在2020年解散的機械人團隊。因此二者合作的破裂並不難理解。

OpenAI的「擰巴」

作為一家AI研究和部署公司,OpenAI對具身智能也保持着高度關注,除了與Figure AI的合作,還投資了具身智能初創企業1X和Physical Intelligence。

據了解,1X是一家總部位於挪威的實體機械人公司,主要應用於家庭場景,1X最新一代NEO產品已在歐洲和美國進行落地驗證,相比早期EVE版本的輪足機械人,NEO雙足人形機械人產品完成度更高。通過結合OpenAI的多模態大模型,讓其在複雜的家庭場景下,具備了一定的泛化操作能力。

而Physical Intelligence則專註於研發能夠驅動多功能機械人的人工智能(AI)模型和算法,致力於在實體世界中實現類似於ChatGPT在數字世界中所做到的變革。通過結合先進的AI技術和機械人硬件,Physical Intelligence旨在創造出能夠自主學習、適應各種環境並執行複雜任務的智能機械人。

此前,有分析人士對此表示了擔憂,一方面,硬件製造與軟件開發之間存在明顯差異,如何有效整合軟硬件資源,實現技術上的無縫對接,是OpenAI需要面對的重要挑戰;另一方面,OpenAI即是投資者,又是參與者,未來如何定位自己是一個需要思考的問題。如果進軍人形機械人本體研發,那麼OpenAI與合作夥伴之間將處於既競爭又合作的矛盾關係。

o1雖好,但使用成本高昂

從上個月開始,中國 AI 創業公司 DeepSeek 推出的 R1 模型搶走了 o1 的風頭。R1 是一個高效的開源推理模型,全球任何人都可以免費獲取、重新訓練和定製,還可以在 DeepSeek 的網站和手機應用上免費使用。

DeepSeek R1 採用寬鬆的 MIT 許可協議,提供免費的應用和網站服務,並開放代碼供人修改,這導致其在消費者和企業市場迅速走紅。就連 OpenAI 的投資方微軟和 Anthropic 的支持者亞馬遜也急於將其變體引入自家雲市場。AI 搜索公司 Perplexity 也迅速為用戶添加了 R1 的變體版本。

微軟1月30日發文宣布DeepSeek R1現已在Azure AI Foundry和GitHub上提供。微軟CEO納德拉在近日的財報電話會議上表示,DeepSeek-R1模型目前已可通過微軟的AI平台Azure AI Foundry和GitHub獲取,並且很快就能在微軟布局的Copilot+PC上運行。

2月1日,OpenAI推出了 o3-mini,這是其新一代」推理器」系列的第二款模型。o3-mini 現已在 ChatGPT (包括免費版) 和 OpenAI 的 API 上線,比此前的高端模型 o1 及其精簡版 o1-mini 更便宜、更快、性能更強。

OpenAI 在去年年底推出的 o3模型被認為是其最強大的人工智能產品,但其運行成本極其高昂,單次任務費用超過1000美元。即使是低計算版本的 o3,其在基準測試中得分達到了76%,但每個任務的成本也達到了約20美元,雖然相對而言仍算是個相對便宜的選擇,但與其前代產品相比仍然貴了好幾倍。

據悉,DeepSeek-R1的API定價低至每百萬tokens輸入1元,僅為OpenAI的3%。社交平台X的用戶Shubham Saboo稱:「DeepSeek R1 100%開源,比OpenAI o1便宜96.4%,同時提供類似的性能。OpenAI o1每1M輸出Token為60美元,而DeepSeek R1每1M輸出Token為2.19 美元。擁有200美元ChatGPT訂閱的人,請仔細考慮一下。」DeepSeek R1的性價比引發了人們對OpenAI投資回報率的懷疑。

具身智能究竟需要怎樣的大模型

斯坦福大學計算機科學教授李飛飛曾指出,具身智能是 AI 領域的下一個「北極星問題」之一,它能夠在虛擬世界中探測和改變自身環境,與周圍環境交互,學習複雜的類人任務。

而具身智能的實現,核心就在於大模型。此前,驚艷亮相的Figure 02,其語音交互能力是基於OpenAI為其定製的大模型實現的。合作驟然破裂,必然有跡可循。

據TechCrunch報道,Figure AI創始人兼首席執行官 Brett Adcock表示,合作的關鍵問題在於整合。OpenAI是一家規模龐大的公司,擁有龐大的業務範圍和相應的智能模型。將人工智能嵌入機械人等實體的具身智能並非這家ChatGPT製造商的關注重點。Adcock認為,正確的解決方案是建立一個端到端的人工智能模型,為特定硬件提供動力。「我們發現,要在現實世界中大規模解決具身智能,必須垂直整合機械人AI。」Adcock表示,「我們不能外包人工智能,就像我們不能外包硬件一樣。」

據了解,實現具身智能有兩種路徑,一種是分層決策,另一種是端到端的神經網絡系統。Figure AI在與OpenAI合作時採用的是前者,通過不同的神經網絡協作,去提高系統的靈活性和實時響應能力。

而端到端架構則通過單一神經網絡,將輸入任務直接映射為控制信號,形成從輸入到輸出的無縫連接。但這種模式需要通過海量數據驅動。

2024年6月,智元機械人決定研發機械人具身智能大模型。為了提升機械人的泛化能力,並適應複雜的環境,智元機械人創始人彭志輝曾預計在2024年下半年智元會有百台以上自由部署機械人專門用來做端到端的數據採集,同時,AIDEA平台也計劃在同年第四季度對外上線。

樂聚機械人董事長冷曉琨告訴動點科技記者:「分層決策和端到端模型在具身智能的實現中各有優勢,未來可能會呈現融合發展的趨勢。理想情況下,合理的分層決策模型應該更加節能高效。就跟人一樣,大腦不應該將算力浪費在計算低層級的運動控制反饋或肌肉關節層面的運動跟蹤上。算力消耗等同於能源,因此避免不必要的計算十分關鍵。大家擔心的是,不恰當的分層解耦可能會在信息傳輸過程中造成限制,導致模型泛化能力不足。但這只是分層設計缺陷的問題,所以目前我們還不會去做直接的端到端。」

分享到Facebook
技術平台: Nasthon Systems