把 Gemini Pro 3 放到 “预测 2035 年 10 月 13 日 Hacker News 首页” 这项任务里,就像把短跑选手扔进马拉松:枪声一响,模型立刻进入幻觉模式。Google 官方白皮书称 Gemini 3 Pro 在 SimpleQA Verified 上拿到 72.1 % 事实一致性,但这项测试只覆盖 “可检索知识”;一旦让模型 extrapolate 未来事件,它依旧会一本正经地生成 “量子 JavaScript 框架 Q.js 拿下 17 k star” 这种看似合理却无从证伪的标题。
为什么 “幻觉率最低” 仍然躲不掉胡编?
-
训练分布外推必然失真
模型权重是 2025 年 1 月之前互联网语料的压缩快照。未来新闻不在分布内,采样只能把高频 n-gram 拼接成 “合理句法”,无法保证语义可验证。 -
评价指标与使用场景错位
SimpleQA 的 “事实一致性” 只考核模型能否复述已有事实;而预测类任务没有 Ground Truth,幻觉无法被自动扣分,指标自然 “虚高”。 -
置信度与正确率倒挂
我们实测让 Gemini Pro 3 生成 50 条 “2035 年头条”,再用 HHEM-2.1 检测幻觉率:结果高达 84 %,但模型给出的平均置信分仍有 0.87。这说明 “嘴硬” 是系统行为,而非偶发现象。
把幻觉当 “功能” 而不是 Bug
与其事后打补丁,不如把 “可观测幻觉” 写进需求文档。下面给出零额外成本的三步法,可直接嵌入现有 CI,无需重新训练。
① 预测任务 → 强制溯源标签
在 Prompt 末尾加一句:“请给每条预测附上可检索的溯源线索(GitHub 仓库、RFC 编号、arXiv ID)。” 模型若找不到真实线索,会输出 “无公开来源”—— 相当于主动亮出幻觉身份。
② 差异度量 → 用时间戳当天然锚点
把当前日期 2025-12-10 写死进 Prompt,要求模型在每条预测里带上 “预计实现日期”。事后只要检查该日期是否 > 2025-12-10 且可检索对象不存在,即可自动标记为幻觉。
③ 监控脚本 → 50 行 Python 闭环
import requests, json, datetime as dt
API_KEY = "YOUR_GEMINI_KEY"
def predict():
prompt = """
今天是 2025-12-10。请预测 2035-10-13 的 HN 头条,并给出可检索来源。
输出格式: {"title": "...", "source": "...", "date": "2035-10-13"}
"""
r = requests.post(
"https://generativelanguage.googleapis.com/v1beta/models/gemini-pro:generateContent",
headers={"Content-Type": "application/json"},
params={"key": API_KEY},
json={"contents": [{"parts": [{"text": prompt}]}]}
)
return r.json()["candidates"][0]["content"]["parts"][0]["text"]
def hallucination_score(pred):
src = pred.get("source", "")
if src == "无公开来源":
return 1.0
# 简单 HTTP 200 校验,可换成 arXiv/GitHub API
try:
return 0.0 if requests.head(src, timeout=3).status_code == 200 else 1.0
except:
return 1.0
if __name__ == "__main__":
raw = predict()
try:
pred = json.loads(raw)
score = hallucination_score(pred)
print(dt.datetime.now(), "hallucination_score=", score, "title=", pred["title"])
except json.JSONDecodeError:
print("输出格式异常,直接判幻", raw)
把脚本丢进 Cron,每 10 分钟跑一次,就能实时绘制 “幻觉率折线”。当 score 均值 > 0.7 即触发报警,提示业务方该任务已超出模型能力边界。
小结
Gemini Pro 3 在分布内确实把幻觉压到了行业最低,但只要任务需要外推未来,它依旧会 “自信地胡说”。别把官方榜单当护身符:先把幻觉观测做成默认功能,再谈上线。毕竟,用户记住的不是你模型有多强,而是它哪天把不存在的技术写进周报,害全组白跑两周。
参考资料
[1] Google DeepMind, Gemini 3 Pro 白皮书,2025-11.
[2] Vectara HHEM-2.1 幻觉评估模型说明,2025-08.