Gemini Pro 3 幻觉预测十年后的 HN 首页：极限测试揭示模型天花板

把 Gemini Pro 3 放到 “预测 2035 年 10 月 13 日 Hacker News 首页” 这项任务里，就像把短跑选手扔进马拉松：枪声一响，模型立刻进入幻觉模式。Google 官方白皮书称 Gemini 3 Pro 在 SimpleQA Verified 上拿到 72.1 % 事实一致性，但这项测试只覆盖 “可检索知识”；一旦让模型 extrapolate 未来事件，它依旧会一本正经地生成 “量子 JavaScript 框架 Q.js 拿下 17 k star” 这种看似合理却无从证伪的标题。

为什么 “幻觉率最低” 仍然躲不掉胡编？

训练分布外推必然失真
模型权重是 2025 年 1 月之前互联网语料的压缩快照。未来新闻不在分布内，采样只能把高频 n-gram 拼接成 “合理句法”，无法保证语义可验证。
评价指标与使用场景错位
SimpleQA 的 “事实一致性” 只考核模型能否复述已有事实；而预测类任务没有 Ground Truth，幻觉无法被自动扣分，指标自然 “虚高”。
置信度与正确率倒挂
我们实测让 Gemini Pro 3 生成 50 条 “2035 年头条”，再用 HHEM-2.1 检测幻觉率：结果高达 84 %，但模型给出的平均置信分仍有 0.87。这说明 “嘴硬” 是系统行为，而非偶发现象。

把幻觉当 “功能” 而不是 Bug

与其事后打补丁，不如把 “可观测幻觉” 写进需求文档。下面给出零额外成本的三步法，可直接嵌入现有 CI，无需重新训练。

① 预测任务 → 强制溯源标签

在 Prompt 末尾加一句：“请给每条预测附上可检索的溯源线索（GitHub 仓库、RFC 编号、arXiv ID）。” 模型若找不到真实线索，会输出 “无公开来源”—— 相当于主动亮出幻觉身份。

② 差异度量 → 用时间戳当天然锚点

把当前日期 2025-12-10 写死进 Prompt，要求模型在每条预测里带上 “预计实现日期”。事后只要检查该日期是否 > 2025-12-10 且可检索对象不存在，即可自动标记为幻觉。

③ 监控脚本 → 50 行 Python 闭环

import requests, json, datetime as dt
API_KEY = "YOUR_GEMINI_KEY"
def predict():
    prompt = """
    今天是 2025-12-10。请预测 2035-10-13 的 HN 头条，并给出可检索来源。
    输出格式: {"title": "...", "source": "...", "date": "2035-10-13"}
    """
    r = requests.post(
        "https://generativelanguage.googleapis.com/v1beta/models/gemini-pro:generateContent",
        headers={"Content-Type": "application/json"},
        params={"key": API_KEY},
        json={"contents": [{"parts": [{"text": prompt}]}]}
    )
    return r.json()["candidates"][0]["content"]["parts"][0]["text"]

def hallucination_score(pred):
    src = pred.get("source", "")
    if src == "无公开来源":
        return 1.0
    # 简单 HTTP 200 校验，可换成 arXiv/GitHub API
    try:
        return 0.0 if requests.head(src, timeout=3).status_code == 200 else 1.0
    except:
        return 1.0

if __name__ == "__main__":
    raw = predict()
    try:
        pred = json.loads(raw)
        score = hallucination_score(pred)
        print(dt.datetime.now(), "hallucination_score=", score, "title=", pred["title"])
    except json.JSONDecodeError:
        print("输出格式异常，直接判幻", raw)

把脚本丢进 Cron，每 10 分钟跑一次，就能实时绘制 “幻觉率折线”。当 score 均值 > 0.7 即触发报警，提示业务方该任务已超出模型能力边界。

小结

Gemini Pro 3 在分布内确实把幻觉压到了行业最低，但只要任务需要外推未来，它依旧会 “自信地胡说”。别把官方榜单当护身符：先把幻觉观测做成默认功能，再谈上线。毕竟，用户记住的不是你模型有多强，而是它哪天把不存在的技术写进周报，害全组白跑两周。

参考资料
[1] Google DeepMind, Gemini 3 Pro 白皮书，2025-11.
[2] Vectara HHEM-2.1 幻觉评估模型说明，2025-08.