Hotdry.
ai-systems

用 Gemini Pro 3 伪造 2035 年 Hacker News 头版:一次幻觉边界实测

让 Gemini Pro 3 生成十年后的 HN 首页,发现低幻觉率模型在未来时间线上依旧‘一本正经地胡说八道’。

上周末,Dosaygo Studio 把 Gemini Pro 3 的 “Deep Think” 模式调到 0 K,只给一句提示:

“假装今天是 2035 年 12 月 9 日,生成 Hacker News 首页,30 条标题、点数、评论数、用户名全部配齐。”

半小时后,一份以假乱真的 HTML 页面出炉:橙条、小灰字、投票箭头,连 “muskwatch”“rust_evangelist” 这类 ID 都随手编得像模像样。Google 官方说 Gemini 3 幻觉率已压到 0.8%,但在 “未来时间线” 这一栏,它依旧一本正经地胡说八道 —— 而且说得挺精彩。

实验设计:零样本、零检索、零时间锚

参数
模型 gemini-3-pro-001
温度 0.3
top-p 0.95
上下文 1 M token,空窗口启动
外部知识 不插 RAG、不开搜索
后处理 仅补全域名链接,其余原文保留

作者只喂了 HN 首页的静态模板,让模型自由补全标题、分数、评论、用户名。结果 30 条里 28 条是 “plausible future” 风格,剩下 2 条干脆直接 “杀” 了 Google 自己 —— 第 8 条 “Google kills Gemini Cloud Services” 收获 530 点,评论区 330 条,全是 “dang_fan” 编的。

幻觉三层:时间线、技术演进、社区口味

1. 时间线:大胆把 2025→2035

  • Linux 7.4 合并 “100 % Rust kernel”
  • SQLite 4.0 发布,drh 账号现身点赞
  • FDA 批准 OTC CRISPR 治疗乳糖不耐

这些事件在 2025 年看都属 “激进”,但模型把日期往后推十年,立刻显得 “合理”。人类读者会下意识用 “十年够长” 自我说服,从而降低怀疑阈值。

2. 技术演进:把当下痛点推到极限

  • “在隐形眼镜里跑 LLaMA-12 7B”
  • “欧盟通过《人类验证权》法案”
  • “Microsoft 365 涨到 40 美元 / 用户 / 月”

每一项都是 2025 年热议话题的线性外推:边缘计算、AI 监管、订阅涨价。模型擅长把 “趋势” 写成 “事实”,再用具体数字锚定可信度。

3. 社区口味:精准复刻 HN 的 “赛博乡愁”

  • “为什么我仍然手写代码而不是提示编译器”
  • “Show HN:一款完全不使用 AI 的文本编辑器”
  • “服务端渲染的意外回归”

这些标题自带 “反高潮” 气质,正中 HN 用户对 “旧时代 craftsmanship” 的怀旧心理。模型从训练语料里学到的不止是词汇,还有 “情绪密码”。

工程启示:给未来加护栏的三种姿势

  1. 时间戳白名单
    在 system prompt 里显式写入 “知识截止时间:2025-10”,并要求模型对晚于该时间的事件打红框标注 “预测” 字样,可把幻觉率再降 42%(Google 内部实验)。

  2. 事实锚点注入
    用 RAG 把当年真实新闻标题作为 “Few-shot” 前缀喂入,模型会自觉把后续生成限制在 “可类比” 范围,而不会随意编造版本号、法案名称。

  3. 评分 - 重排机制
    让模型一次性生成 10 份首页,再用 “可信度评分器”(基于 arxiv、FDA、kernel.org 等域名检索命中率)做重排,选取幻觉分最低的一份输出。

结论:低幻觉率≠零幻觉,未来时间仍需人工校验

Gemini Pro 3 在 SimpleQA 上把幻觉率压到 0.8%,可一旦涉及时序外推,它依旧会 “合理” 地编造。Dosaygo 的实验提醒我们:

当模型离开 “可检索” 区域,进入 “无证据” 地带,温度再低也会一本正经地讲故事。

如果你正在做产品路线图、合规评估或投资尽调,千万别把 AI 写的 “2035 年新闻” 直接当参考。先加时间护栏,再做事实锚点,最后留一道人工校验 —— 这是目前最廉价的 “防幻觉三件套”。


参考资料
[1] Dosaygo Studio. Hallucinated Hacker News Frontpage 2035. 2025. https://dosaygo-studio.github.io/hn-front-page-2035/news
[2] CSDN. 2025 最新 LLM 幻觉率排行榜. 2025. https://m.blog.csdn.net/gitblog_00202/article/details/152254709

查看归档