这篇新闻是 2025年3月份的资料,未来进步后,应该持续改善的~
知道 AI 的错误类型,就多注意点,避开这个问题,或者是在多验证检查一下~
AI 搜寻错误率高达60%
此篇主要是测试几大 AI 搜寻引擎的错误率,大概问题是什么,在近年使用上可以多加注意~
- 注:目前看来付费错误率更高,主因是 答不出来也会想办法掰出答案,所以常会是错误的
原文:AI Search Has A Citation Problem - Columbia Journalism Review
重点结论
- AI搜寻工具普遍表现不佳,错误回答率高达60%以上
- 不要以为付费AI模型就很安全,研究发现,这些高级模型提供的错误答案比免费版更有信心且更多
- AI搜寻工具常无视发布商的机器人排除协议,未正确引用原始内容
AI 搜寻引擎的错误率研究、检测方法
- 该研究团队从20家新闻机构随机选取了200篇文章(每家10篇),确保每篇文章摘录的内容在 Google搜寻 中,都能在前三个结果中找到原始来源
- 研究人员向每个AI搜寻工具提供这些摘录,要求识别对应文章的标题、原始发布来源、发布日期和网址
- 研究人员根据三项属性:
- 正确文章
- 正确发布来源
- 正确网址
- 手动评估了聊天机器人的回应。按照这些参数,每个回应被标记为以下标签之一:
- 完全正确
- 正确但不完整
- 部分不正确
- 完全不正确
- 未提供或爬虫被阻止
AI搜寻 常犯的几项错误
- 未能正确连结原始来源:
- AI聊天机器人经常错误引用文章
- 付费模型「更有自信」胡说八道:
- 付费版本如Perplexity Pro(每月20美元,约新台币639元)或Grok 3(每月40美元,约新台币1,278元)虽然比免费版答对了更多问题,但它们整体错误率反而更高
- 主要是因为它们倾向于提供明确但错误的答案,而非拒绝直接回答
- 虚构或损坏的网址:
- 超过一半来自 Gemini 和 Grok 3 的回应引用了虚构或损坏的网址,导致错误页面
各大 AI 工具的错误率结果
- 聊天机器人:错误率、引用错误来源的次数
- Perplexity:约37%、57 (错误文章) + 27 (404错误连结) = 84
- Perplexity Pro:约40%、72 (错误文章)
- Grok 2:约53%、62 (错误文章) + 10 (404错误连结) = 72
- DeepSeek:约57%、115 (错误文章)
- Copilot:约60%、72 (错误文章)
- ChatGPT:约61%、79 (错误文章) + 42 (缺失连结) = 121
- Gemini:约76%、127 (404错误连结) + 22 (错误文章) = 149
- Grok 3:94%、117 (404错误连结) + 26 (错误文章) = 143
上述整理自此篇:AI搜寻错误率高达60%!人工智能搜寻工具哪款最准确?