研究稱,AI搜索工具平均出錯了約60%,Grok 3高達94%!

造假,刷單,假貨,打假

AI搜索服務向用戶傳遞錯誤信息,且無視出版社的排除請求。

哥倫比亞新聞評論(Columbia Journalism Review)旗下的陶氏數字新聞研究中心(Tow Center for Digital Journalism)的一項新研究發現:用於新聞搜索的生成式AI模型存在嚴重的準確性問題 —— 錯誤率高達 60%。

據悉,該研究對 8 款具備實時搜索功能的AI驅動搜索工具進行了測試,結果發現,AI模型在回答有關新聞來源的查詢時,平均超過 60% 的答案是錯誤的。

研究人員 Klaudia Jaźwińska 和 Aisvarya Chandrasekar 在報告中指出,現在大約每 4 個美國人中就有 1 人使用AI模型來替代傳統搜索引擎。鑒於研究中發現的高錯誤率,不僅引發了對 AI 可靠性的嚴重擔憂。

在測試的平台中,錯誤率差異顯著。Perplexity 在 37% 的測試查詢中提供了錯誤信息,而 ChatGPT 搜索在被查詢的文章中,錯誤識別了 67%(200 篇中的 134 篇)。Grok 3 的錯誤率最 高,達到了 94%。

1.jpg

在測試中,研究人員將實際新聞文章的直接節選內容輸入到人工智能模型中,然後要求每個模型識別文章的標題、原始發佈者、發佈日期和網址(URL)。他們在這 8 種不同的生成式搜索工具上共進行了 1600 次查詢。

這項研究突出了這些AI模型的一個共同趨勢:當缺乏可靠的信息支撐時,這些AI模型不是選擇「誠實」,而是經常給出「編造」的內容 —— 一些看似合理,卻存在錯誤或猜測性的回答。研究人員強調,所有測試的AI模型都存在這一問題,並非個例!

更離譜的是,這些AI工具的付費高 級版本有時表現甚至更差。Perplexity Pro(每月 20 美元)和 Grok 3 的高 級服務(每月 40 美元)比它們的免費版本錯誤率更高,但它們卻十分自信。雖然這些付費模型的正確回答數量較多,但當它們面對「不確定的問題」時,不僅不會像免費版本那樣「容易崩潰」,而且更喜歡給出一些「自以為是」的回答,這樣導致了它們總體錯誤率比免費版還要高。

除此之外,研究人員還發現了另一個問題,某些AI模型無視了 「機械人排除協議(Robot Exclusion Protocol)」 —— 出版社利用相關協議來防止未經授權的訪問。舉個例子,雖然《國家地理》(National Geographic)明確禁止 Perplexity 的網絡爬蟲訪問,但 Perplexity 的免費版本還是準確識別出了《國家地理》付費內容中的 10 篇節選文章。

perplexity

與此同時,即使這些AI模型引用了來源數據,但它們也常常只會將用戶引導至雅虎新聞(Yahoo News)等平台上的內容集,而非內容的原始出處。即使在發佈者與人工智能公司有正式許可協議的情況下,這種情況也會發生。

編造來源成為了又一個大問題。谷歌 Gemini 和 Grok 3 的內容引用來源中,超過50%會將用戶引入一個虛假或無效的網址中,這也是「錯誤答案」的主要來源。在對 Grok 3 的 200 次引用測試中,有 154 次出現了引用來源鏈接無效的情況。

這也讓出版商們叫苦不迭。阻止AI爬蟲吧,他們還是會自行「引用」內容,且不標註你的來源;允許它們訪問吧,又會導致版權所有的內容被不斷重複使用,依舊無法將流量引回自己的網站。

2.jpg

《時代》(Time)雜誌的CEO馬克・霍華德(Mark Howard)怒斥「現在是AI產品(表現)最糟糕的時候。」同時,他也對一些用戶提出了批評:如果有任何一個用戶會對這些免費產品抱有100 %準確率的幻想,那他們應該感到羞愧。

對於這項研究,OpenAI 和微軟都給予了反饋,承認收到了這些研究結果。OpenAI 指出,它承諾通過摘要、引用、清晰的鏈接和歸屬引用等方式為發佈者帶來流量,以此來支持發佈者。微軟則表示,它遵守 「機械人排除協議」 和發佈者的指令。但除此之外,別無他話。

舉報

分享到Facebook
技術平台: Nasthon Systems