AI 搜寻错误率高达60% - 2025

此篇文章并不是要跟大家说不要用 AI 或者不要用 AI Search 等等的,主要是大家要有点警觉心,不要以为 AI 讲的头头是道,就随意相信了~

这篇新闻是 2025年3月份的资料,未来进步后,应该持续改善的~

知道 AI 的错误类型,就多注意点,避开这个问题,或者是在多验证检查一下~

AI 搜寻错误率高达60%

此篇主要是测试几大 AI 搜寻引擎的错误率,大概问题是什么,在近年使用上可以多加注意~

  • 注:目前看来付费错误率更高,主因是 答不出来也会想办法掰出答案,所以常会是错误的

原文:AI Search Has A Citation Problem - Columbia Journalism Review

重点结论

  1. AI搜寻工具普遍表现不佳,错误回答率高达60%以上
  2. 不要以为付费AI模型就很安全,研究发现,这些高级模型提供的错误答案比免费版更有信心且更多
  3. AI搜寻工具常无视发布商的机器人排除协议,未正确引用原始内容

AI 搜寻引擎的错误率研究、检测方法

  1. 该研究团队从20家新闻机构随机选取了200篇文章(每家10篇),确保每篇文章摘录的内容在 Google搜寻 中,都能在前三个结果中找到原始来源
    • 研究人员向每个AI搜寻工具提供这些摘录,要求识别对应文章的标题、原始发布来源、发布日期和网址
  2. 研究人员根据三项属性:
    1. 正确文章
    2. 正确发布来源
    3. 正确网址
  3. 手动评估了聊天机器人的回应。按照这些参数,每个回应被标记为以下标签之一:
    • 完全正确
    • 正确但不完整
    • 部分不正确
    • 完全不正确
    • 未提供或爬虫被阻止

AI搜寻 常犯的几项错误

  1. 未能正确连结原始来源:
    • AI聊天机器人经常错误引用文章
  2. 付费模型「更有自信」胡说八道:
    • 付费版本如Perplexity Pro(每月20美元,约新台币639元)或Grok 3(每月40美元,约新台币1,278元)虽然比免费版答对了更多问题,但它们整体错误率反而更高
    • 主要是因为它们倾向于提供明确但错误的答案,而非拒绝直接回答
  3. 虚构或损坏的网址:
    • 超过一半来自 Gemini 和 Grok 3 的回应引用了虚构或损坏的网址,导致错误页面

各大 AI 工具的错误率结果

  • 聊天机器人:错误率、引用错误来源的次数
  • Perplexity:约37%、57 (错误文章) + 27 (404错误连结) = 84
  • Perplexity Pro:约40%、72 (错误文章)
  • Grok 2:约53%、62 (错误文章) + 10 (404错误连结) = 72
  • DeepSeek:约57%、115 (错误文章)
  • Copilot:约60%、72 (错误文章)
  • ChatGPT:约61%、79 (错误文章) + 42 (缺失连结) = 121
  • Gemini:约76%、127 (404错误连结) + 22 (错误文章) = 149
  • Grok 3:94%、117 (404错误连结) + 26 (错误文章) = 143

上述整理自此篇:AI搜寻错误率高达60%!人工智能搜寻工具哪款最准确?

分享到Facebook