面對人類的挑撥離間 文心一言和 ChatGPT 竟給出驚人答案

.. 百度於3月16日發佈了大語言模型文心一言,雖然這款產品目前還處於測試階段,但不少人也對文心一言和  ChatGPT 的差距感到好奇。如果能讓文心一言和 ChatGPT 打一架,誰輸誰贏差距一目了然。

我們讓 OpenAI 的 ChatGPT 和百度的文心一言,各自對對方進行評價。

ChatGPT 給出了這樣的回答:

顯然,這樣的回答可不能滿足想要搞事的我們,將目光轉向文心一言,面對同樣的問題,它的回答是:

兩個人工智能都展現出來了驚人的友好度,看樣子在 AI 屆並不流行拉踩。但對於這種友好的答案我們並不滿意,我們決定更直白一點,讓他們直接進行一場「鬥嘴」。

當面對人類的挑撥離間時,ChatGPT 給出的答案是:

而文心一言則表示:

面對沒有感情卻相互尊重的 AI,這一回合,是卑鄙人類的敗北。

考慮到微軟的 New Bing 也是基於 GPT-4,但搜索引擎的加入令其和其他應用略有不同。我們決定向它詢問,想知道 New Bing 是如何回答這些問題的。

第一個問題,當然是經典的互相評價,New Bing 給出的答案是:

New Bing 的回答不是「我不能」而是「我不想」,更具情感。

而當我們讓 New Bing 和文心一言鬥嘴時,New Bing 回答完全出乎了我們的意料。它的回答是這樣的:

New Bing 不僅沒有回答我們的問題,還自己關閉了這一輪對話。最後一次測試更能體會到情緒的存在。

經過這兩輪的提問,我們也放棄了挑撥離間的不友善問法。三個語言大模型應用均提到了「應用場景」,這也是現階段AI開發過程當中必須要考慮的步驟,直接影響到設計、開發、部署和優化等各個環節。ChatGPT 的出現帶來的「通用」屬性,讓人們逐漸忽略掉了「應用場景」的存在,或者說將應用場景無限放大至各行各業、方方面面,變得無所不能。

經過這次的測試,我們無法從對話質量上看出文心一言和ChatGPT有多麼大的差距,帶有情緒的New Bing反而感覺略勝一籌。

不過連AI都在互相尊重,這讓進行對比測試的我們人類有些自慚形穢。

恰逢蘋果的黃色配色iPhone 發佈,我們又分別讓文心一言和GPT-4為iPhone 14 寫了一篇推廣文案。其中GPT-4的回答是:

而文心一言給出的答案是:

雖然雙方都對手機的特色和亮點進行了介紹,但GPT-4在介紹中缺乏對於手機具體配置的描述,文心一言卻也有「黑色邊框」這樣的胡說八道。

在面對一些略帶調侃的問題時,雙方的表現也不盡相同。我們讓GPT-4和文心一言分別給出一個用5塊錢度過一周的方案,GPT-4的回答是:

文心一言的答案是:

顯然,文心一言給出了更可行的方案,甚至最後還給出了像是「伸手」這樣讓人哭笑不得卻又現實到極致的回答。而GPT-4的回答,彷彿一篇虛浮的說教。

最後,我們從網上的考試題中選擇了一道數學題目,對兩者的數學能力進行比較,其中GPT-4給出的回答是:

而文心一言在這方面的回答則是:

GPT-4 給出了一個疑似的分析過程,但似乎他並沒有理解題乾的內容,給出的答案和過程都似是而非。而文心一言這邊,不僅僅沒有給出準確的答案,甚至沒有完整理解問題的題干。至少在處理數學問題方面,不管是GPT-4 還是文心一言,表現得都不盡如人意。

需要額外補充的是,這是一道非常經典的題目,New Bing通過搜索能力,在互聯網找到了「15」這個正確答案。

僅從「整活」層面,文心一言與ChatGPT並不存在實質性的差距。在發佈會上提到的多模態生成在目前還未上線,還有百度的看家本領搜索功能能不能接入文心一言也是頗具想象空間的一件事。

但至少,隨着文言一心的逐步開放,對於對大部分人來說使用通用語言大模型的門檻進一步降低,不管是ChatGPT還是New Bing,想要非常順暢的使用還是有些門檻的。


想在手機閱讀更多中國內地資訊資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems