你、我,還有 AI,都一樣……
蘋果近日發佈的一項人工智能研究表明,AI 的「推理能力」或許遠沒有我們想象中的那麼強。
這篇論文是在蘋果年度開發者大會(WWDC)前幾天發表的。研究指出,大型推理模型(LRM)——例如 OpenAI 的 o1 與 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 以及 Google Gemini Flash Thinking ——在面對日益複雜的問題時,會出現「徹底崩潰」的現象。這項研究出自去年曾揭示大型語言模型(LLM)推理缺陷的同一批研究人員。
這個發現無疑給熱衷於「通用人工智能」(AGI)的人潑了盆冷水,而對 AI 懷疑派來說則是振奮人心的好消息。研究顯示,雖然被大肆宣傳的 LRM 在中等難度謎題上的表現優於傳統 LLM,但在簡單題上的表現卻更差;而當面對高難度問題時,它們則會「完全崩潰」,甚至在解題過程中提早「放棄」。
蘋果研究人員用一句話總結了這些模型的真實表現:雖然它們在數學和編程任務中表現亮眼,但面對更複雜的挑戰時,只呈現出「思考的假象」。
蘋果在大模型開發方面起步較晚,設備中的 AI 功能也普遍被認為不夠驚艷。如今這項研究或許可以解釋,為什麼蘋果不像谷歌和三星那樣急於在產品中全面導入 AI 功能。
蘋果是如何測試「推理能力」的?
研究人員使用了一系列經典邏輯謎題來測試這些被稱為「LRM」(大型推理模型)的 AI 系統,比如:
河內塔:將一組從大到小的圓盤從一個柱子移動到另一個柱子,規則是不能將較大的圓盤放在較小的上面。
跳棋問題:讓棋子按規則跳躍至空格中。
過河難題:例如「狐狸、雞和一袋糧食」不能單獨留在一起。
方塊堆疊問題:按指定順序堆疊方塊。
這些謎題通常用於測試人類的邏輯推理與問題解決能力。一旦掌握規律,難度雖提升,但邏輯是連續可循的。然而,研究發現:這些 LRM 模型在難度提升到一定程度后就會「失靈」。
研究寫道:「所有推理模型在面對問題複雜度增加時,都表現出類似的趨勢:準確率逐漸下降,最終在模型各自的臨界點完全崩潰(準確率為 0)。」 例如,在河內塔問題中,當添加到第五個圓盤時,Claude 3.7 Sonnet + Thinking 與 DeepSeek R1 就開始頻繁失敗。即使提供更多算力,也無法解決高複雜度問題。
更令人意外的是,研究人員還發現,隨着問題變難,模型一開始確實會投入更多「思考 token」(推理努力),但接近臨界點時,反而會減少「思考」——即 token 使用量下降。換言之,問題越難,它們反而「更快放棄」。
即使研究人員直接在提示中提供了解題算法,模型只需「按步驟操作」,結果依然無改善。
但這是否意味着 AI 無法推理?
也不必過於悲觀。蘋果的研究並不意味着這些模型完全沒有推理能力,而是指出它們目前並不比人類聰明太多。AI 專家 Gary Marcus 在博客中指出:「(普通)人類其實也在類似的任務中表現不佳。例如,許多人在解決包含 8 個圓盤的河內塔問題時也會出錯。」 他還指出,研究並未將這些 AI 模型的表現與人類做直接對比。
本質上,大型語言模型在編程、寫作等任務中確實有價值,但也存在弱點。Marcus 總結說:「無論你如何定義 AGI,蘋果這項研究的根本結論是——LLM 不能代替良好定義的傳統算法。」
因此,我們應將這項研究視為一項重要的參考數據,與其他 LLM 研究結合來看。每次 AI 研究有新發現,社會輿論很容易陷入極端化:不是徹底看衰 AI,就是過度興奮地慶祝「突破」。但現實往往處在這兩個極端之間——既不驚天動地,也不一無是處。
(舉報)