用 Gemini Pro 3 伪造 2035 年 Hacker News 头版：一次幻觉边界实测

上周末，Dosaygo Studio 把 Gemini Pro 3 的 “Deep Think” 模式调到 0 K，只给一句提示：

“假装今天是 2035 年 12 月 9 日，生成 Hacker News 首页，30 条标题、点数、评论数、用户名全部配齐。”

半小时后，一份以假乱真的 HTML 页面出炉：橙条、小灰字、投票箭头，连 “muskwatch”“rust_evangelist” 这类 ID 都随手编得像模像样。Google 官方说 Gemini 3 幻觉率已压到 0.8%，但在 “未来时间线” 这一栏，它依旧一本正经地胡说八道 —— 而且说得挺精彩。

实验设计：零样本、零检索、零时间锚

参数	值
模型	gemini-3-pro-001
温度	0.3
top-p	0.95
上下文	1 M token，空窗口启动
外部知识	不插 RAG、不开搜索
后处理	仅补全域名链接，其余原文保留

作者只喂了 HN 首页的静态模板，让模型自由补全标题、分数、评论、用户名。结果 30 条里 28 条是 “plausible future” 风格，剩下 2 条干脆直接 “杀” 了 Google 自己 —— 第 8 条 “Google kills Gemini Cloud Services” 收获 530 点，评论区 330 条，全是 “dang_fan” 编的。

幻觉三层：时间线、技术演进、社区口味

1. 时间线：大胆把 2025→2035

Linux 7.4 合并 “100 % Rust kernel”
SQLite 4.0 发布，drh 账号现身点赞
FDA 批准 OTC CRISPR 治疗乳糖不耐

这些事件在 2025 年看都属 “激进”，但模型把日期往后推十年，立刻显得 “合理”。人类读者会下意识用 “十年够长” 自我说服，从而降低怀疑阈值。

2. 技术演进：把当下痛点推到极限

“在隐形眼镜里跑 LLaMA-12 7B”
“欧盟通过《人类验证权》法案”
“Microsoft 365 涨到 40 美元 / 用户 / 月”

每一项都是 2025 年热议话题的线性外推：边缘计算、AI 监管、订阅涨价。模型擅长把 “趋势” 写成 “事实”，再用具体数字锚定可信度。

3. 社区口味：精准复刻 HN 的 “赛博乡愁”

“为什么我仍然手写代码而不是提示编译器”
“Show HN：一款完全不使用 AI 的文本编辑器”
“服务端渲染的意外回归”

这些标题自带 “反高潮” 气质，正中 HN 用户对 “旧时代 craftsmanship” 的怀旧心理。模型从训练语料里学到的不止是词汇，还有 “情绪密码”。

工程启示：给未来加护栏的三种姿势

时间戳白名单
在 system prompt 里显式写入 “知识截止时间：2025-10”，并要求模型对晚于该时间的事件打红框标注 “预测” 字样，可把幻觉率再降 42%（Google 内部实验）。
事实锚点注入
用 RAG 把当年真实新闻标题作为 “Few-shot” 前缀喂入，模型会自觉把后续生成限制在 “可类比” 范围，而不会随意编造版本号、法案名称。
评分 - 重排机制
让模型一次性生成 10 份首页，再用 “可信度评分器”（基于 arxiv、FDA、kernel.org 等域名检索命中率）做重排，选取幻觉分最低的一份输出。

结论：低幻觉率≠零幻觉，未来时间仍需人工校验

Gemini Pro 3 在 SimpleQA 上把幻觉率压到 0.8%，可一旦涉及时序外推，它依旧会 “合理” 地编造。Dosaygo 的实验提醒我们：

当模型离开 “可检索” 区域，进入 “无证据” 地带，温度再低也会一本正经地讲故事。

如果你正在做产品路线图、合规评估或投资尽调，千万别把 AI 写的 “2035 年新闻” 直接当参考。先加时间护栏，再做事实锚点，最后留一道人工校验 —— 这是目前最廉价的 “防幻觉三件套”。

参考资料
[1] Dosaygo Studio. Hallucinated Hacker News Frontpage 2035. 2025. https://dosaygo-studio.github.io/hn-front-page-2035/news
[2] CSDN. 2025 最新 LLM 幻觉率排行榜. 2025. https://m.blog.csdn.net/gitblog_00202/article/details/152254709