引言:传统评估的终结与口试的可扩展性困境
在 LLM 时代,传统笔试已彻底失效。学生可以轻松将考题输入 ChatGPT 并获得完美答案,这使得书面作业无法真实衡量学生的理解深度。NYU Stern 的 AI/ML 产品管理课程发现,那些提交 "麦肯锡级别" 精美报告的学生,在被随机点名要求解释自己作品中的基本选择时,往往无法回答两个追问。
口试作为解决方案具有天然优势:它强制实时推理、应用新提示、并为实际决策辩护。然而,传统口试存在致命缺陷 —— 可扩展性问题。为 36 名学生每人安排 25 分钟口试,需要两名评分者投入 30 小时,按助教时薪 25 美元计算成本达 750 美元,按教授时薪计算则根本不可行。
技术架构:语音 AI 代理与工作流设计
ElevenLabs 语音 AI 代理平台
ElevenLabs Conversational AI 平台将语音转文本、文本转语音、话轮转换、打断处理等复杂组件打包为可用服务。其核心优势在于快速部署:一个基础版本的口试代理可以在几分钟内上线运行。
关键工程参数:
- 语音分钟成本:约 0.14 美元 / 分钟(基于 15 美元总成本中的 5 美元语音部分)
- 平均对话消息数:65 条 / 学生
- 平均考试时长:25 分钟(范围 9-64 分钟)
工作流架构设计
系统采用 "多小代理" 而非单一 "聊天式" 代理的设计哲学,防止对话漂移并便于调试:
- 认证代理:验证学生 ID,拒绝无效身份(未来可集成 SSO)
- 项目讨论代理:通过动态变量注入项目上下文,提问针对学生具体提交内容
- 案例分析代理:从课程案例库中选取案例进行结构化提问
动态变量配置示例:
{
"student": "Konstantinos Rizakos",
"netid": "kr888",
"projectid": "B",
"project_description": "LinkedIn Recruiter代理,扫描个人资料并自动向候选人发送个性化DM"
}
工程实现中的问题与修复策略
1. 语音调优:从 "恐吓" 到 "可接受"
初始版本使用 Foster Provost 的克隆语音,学生反馈 "声音太严厉"、"像在吼我"。修复策略包括:
- A/B 测试不同语音:测试更温和的语音选项
- 语速调整:降低语速 20-30%
- 停顿时间:将代理的 "你在吗?" 超时从 5 秒延长至 10 秒
2. 问题设计:避免认知过载
代理常犯的错误是 "问题堆叠"—— 一次性提出多个问题,如 "解释你的指标选择,告诉我你尝试了哪些基线,为什么不用 X,下一步做什么"。这实际上是四个问题伪装成一个。
修复规则:
- 硬性规定:一次只问一个问题
- 多部分探测:通过话轮链式进行
- 干扰协议:如果问题被堆叠,学生只回答部分问题仍可获得满分
3. 随机性处理:LLM 的偏好偏差
要求 LLM"随机选择" 案例是无效的。当 Zillow 在案例列表中时,代理 88% 的时间选择 Zillow;移除 Zillow 后,立即锁定 Predictive Policing—— 在 12 月 19 日的 21 场考试中选择了 16 次。
确定性随机化方案:
# 在代码中生成随机数,而非依赖LLM
import random
case_index = random.randint(0, len(cases)-1)
selected_case = cases[case_index]
# 将case_index作为参数传递给代理
4. 澄清机制:保持问题一致性
学生请求重复问题时,代理会以微妙不同的方式重新表述,导致学生解决的是不同问题。
修复指令:
- 当被要求重复时,逐字重复原问题
- 禁止释义或重新表述
- 保持问题表述的一致性
评分系统:LLM 委员会协商机制
三模型独立评分架构
采用 Andrej Karpathy 的 "LLM 委员会" 理念,三个模型独立评分后协商:
- Claude:作为主席和主要评分者(成本 8 美元)
- Gemini:作为第二评分者(成本 2 美元)
- ChatGPT:作为第三评分者(成本 0.30 美元)
第一轮评分差异:
- 完美一致率:0%
- 2 分内一致率:23%
- 平均最大差异:3.93 分(20 分制)
- Gemini 偏宽松:平均 17/20
- Claude 偏严格:平均 13.4/20
- 差距:3.6 分(B + 与 B - 的区别)
协商收敛效果
模型看到彼此的评估和证据后进行第二轮评分:
| 指标 | 第一轮 | 第二轮 | 改进 |
|---|---|---|---|
| 完美一致 | 0% | 21% | +21pp |
| 1 分内一致 | 0% | 62% | +62pp |
| 2 分内一致 | 23% | 85% | +62pp |
| 平均最大差异 | 3.93 分 | 1.41 分 | -2.52 分 |
Gemini 在看到 Claude 和 ChatGPT 更严格的评估后,平均降低了 2 分。无法在 Claude 指出实验讨论的具体漏洞时仍给出 17 分。
主题一致性分析
不同主题的评分一致性差异显著:
- 问题框架与指标:100% 在 1 分内一致
- 实验设计:仅 57% 在 1 分内一致
这反映了学生回答的真实模糊性:当学生给出清晰具体的答案时,评分者容易达成一致;当答案模糊不清时,评分者(无论是人类还是 AI)在部分给分上存在分歧。
可落地工程参数与监控要点
成本优化阈值
每学生成本分解:
- Claude 评分:0.22 美元
- Gemini 评分:0.06 美元
- ChatGPT 评分:0.01 美元
- ElevenLabs 语音:0.13 美元
- 总计:0.42 美元 / 学生
对比传统方案:
- 人工口试:750 美元(30 小时 ×25 美元 / 小时)
- AI 口试:15 美元
- 成本降低:98%
时间配置参数
- 考试时长范围:9-64 分钟(平均 25 分钟)
- 思考时间:代理等待响应超时 10 秒
- 问题间隔:至少 3 秒停顿
- 总消息数:65 条 / 对话(平均)
评分协议配置
分歧阈值触发人工审核:
- 模型间差异≥3 分:自动标记人工审核
- 关键主题(如实验设计)评分差异≥2 分:标记审核
- 任何模型给出极端分数(<5 或> 18):二次验证
反馈生成模板:
优势:[引用学生回答的具体部分]
弱点:[指出具体不足,引用证据]
行动建议:[提供可操作改进步骤]
防作弊机制
- 强制录制:要求学生录制视频 + 音频
- 环境检测:通过音频分析检测背景声音
- 响应模式分析:检测 LLM 辅助的响应模式
- 时间模式异常:检测不自然的思考 - 响应时间模式
系统诊断与教学改进
暴露的教学漏洞
系统不仅评估学生,也诊断教学不足。在 NYU Stern 的案例中:
- 实验设计主题:平均得分 1.94/4(问题框架:3.39/4)
- 得分分布:8% 得 0 分,19% 得 1 分,42% 得 2 分,0% 得 4 分
- 诊断结果:课程在 A/B 测试方法上投入不足
时长与质量的相关性
有趣发现:考试时长与得分无相关性(r = -0.03):
- 最短考试(9 分钟)→最高分(19/20)
- 最长考试(64 分钟)→中等分(12/20)
这表明表达效率与理解深度正相关,而非思考时间。
学生反馈与迭代方向
接受度数据
- 偏好 AI 口试:13%
- 偏好传统笔试:57%
- 认为测试真实理解:70%(最高评分项)
- 感觉更有压力:83%
迭代优先级
- 语音与节奏优化:降低压力感
- RAG 集成:基于学生提交物提问
- 更好的随机化:确定性随机种子
- 可访问性默认:练习机会、额外时间选项
- 透明度提升:公布考试结构和评分标准
结论:评估范式的转变
传统笔试在 LLM 时代已失效,而人工口试因成本不可扩展。基于语音 AI 代理的可扩展口试系统提供了第三条道路:保留口试的评估优势,同时实现经济可行性。
核心工程洞察:
- 多模型协商评分比单一模型更可靠
- 语音调优对用户体验影响巨大
- LLM 的 "随机性" 需要代码级确定性控制
- 成本可从 750 美元降至 15 美元(98% 降低)
最讽刺的是,这个系统可以完全透明地交给学生:公布考试结构、技能测试类型、问题类型。没有秘密问题,只有 LLM 实时生成的新问题。学生练习越多,准备越充分 —— 这正是学习应有的方式。
资料来源:
- NYU Stern 可扩展口试实验:https://www.behind-the-enemy-lines.com/2025/12/fighting-fire-with-fire-scalable-oral.html
- ElevenLabs Agents 平台文档:https://elevenlabs.io/docs/agents-platform/overview