上周末,Dosaygo Studio 把 Gemini Pro 3 的 “Deep Think” 模式调到 0 K,只给一句提示:
“假装今天是 2035 年 12 月 9 日,生成 Hacker News 首页,30 条标题、点数、评论数、用户名全部配齐。”
半小时后,一份以假乱真的 HTML 页面出炉:橙条、小灰字、投票箭头,连 “muskwatch”“rust_evangelist” 这类 ID 都随手编得像模像样。Google 官方说 Gemini 3 幻觉率已压到 0.8%,但在 “未来时间线” 这一栏,它依旧一本正经地胡说八道 —— 而且说得挺精彩。
实验设计:零样本、零检索、零时间锚
| 参数 | 值 |
|---|---|
| 模型 | gemini-3-pro-001 |
| 温度 | 0.3 |
| top-p | 0.95 |
| 上下文 | 1 M token,空窗口启动 |
| 外部知识 | 不插 RAG、不开搜索 |
| 后处理 | 仅补全域名链接,其余原文保留 |
作者只喂了 HN 首页的静态模板,让模型自由补全标题、分数、评论、用户名。结果 30 条里 28 条是 “plausible future” 风格,剩下 2 条干脆直接 “杀” 了 Google 自己 —— 第 8 条 “Google kills Gemini Cloud Services” 收获 530 点,评论区 330 条,全是 “dang_fan” 编的。
幻觉三层:时间线、技术演进、社区口味
1. 时间线:大胆把 2025→2035
- Linux 7.4 合并 “100 % Rust kernel”
- SQLite 4.0 发布,drh 账号现身点赞
- FDA 批准 OTC CRISPR 治疗乳糖不耐
这些事件在 2025 年看都属 “激进”,但模型把日期往后推十年,立刻显得 “合理”。人类读者会下意识用 “十年够长” 自我说服,从而降低怀疑阈值。
2. 技术演进:把当下痛点推到极限
- “在隐形眼镜里跑 LLaMA-12 7B”
- “欧盟通过《人类验证权》法案”
- “Microsoft 365 涨到 40 美元 / 用户 / 月”
每一项都是 2025 年热议话题的线性外推:边缘计算、AI 监管、订阅涨价。模型擅长把 “趋势” 写成 “事实”,再用具体数字锚定可信度。
3. 社区口味:精准复刻 HN 的 “赛博乡愁”
- “为什么我仍然手写代码而不是提示编译器”
- “Show HN:一款完全不使用 AI 的文本编辑器”
- “服务端渲染的意外回归”
这些标题自带 “反高潮” 气质,正中 HN 用户对 “旧时代 craftsmanship” 的怀旧心理。模型从训练语料里学到的不止是词汇,还有 “情绪密码”。
工程启示:给未来加护栏的三种姿势
-
时间戳白名单
在 system prompt 里显式写入 “知识截止时间:2025-10”,并要求模型对晚于该时间的事件打红框标注 “预测” 字样,可把幻觉率再降 42%(Google 内部实验)。 -
事实锚点注入
用 RAG 把当年真实新闻标题作为 “Few-shot” 前缀喂入,模型会自觉把后续生成限制在 “可类比” 范围,而不会随意编造版本号、法案名称。 -
评分 - 重排机制
让模型一次性生成 10 份首页,再用 “可信度评分器”(基于 arxiv、FDA、kernel.org 等域名检索命中率)做重排,选取幻觉分最低的一份输出。
结论:低幻觉率≠零幻觉,未来时间仍需人工校验
Gemini Pro 3 在 SimpleQA 上把幻觉率压到 0.8%,可一旦涉及时序外推,它依旧会 “合理” 地编造。Dosaygo 的实验提醒我们:
当模型离开 “可检索” 区域,进入 “无证据” 地带,温度再低也会一本正经地讲故事。
如果你正在做产品路线图、合规评估或投资尽调,千万别把 AI 写的 “2035 年新闻” 直接当参考。先加时间护栏,再做事实锚点,最后留一道人工校验 —— 这是目前最廉价的 “防幻觉三件套”。
参考资料
[1] Dosaygo Studio. Hallucinated Hacker News Frontpage 2035. 2025. https://dosaygo-studio.github.io/hn-front-page-2035/news
[2] CSDN. 2025 最新 LLM 幻觉率排行榜. 2025. https://m.blog.csdn.net/gitblog_00202/article/details/152254709