在在线社区中,评论区的毒性内容、低效争论和脱题讨论常常破坏 discourse 质量。Respectify 提供了一个创新的 LLM 驱动管道,不仅检测问题,还通过教育性反馈和重写建议引导用户改进,实现从 “惩罚式审核” 向 “建设性引导” 的转变。本文聚焦工程化实现该管道的核心技术点:实时毒性检测、建设性重写生成,以及用户反馈闭环,确保低延迟(<500ms)、高准确率(>85%)的同时,支持可配置阈值和监控。
管道整体架构
LLM 管道采用客户端 - 服务端混合模式,确保实时性。流程如下:
-
Topic 初始化:评论上下文依赖文章主题。调用 API
initTopicFromUrl(url)或initTopicFromText(text)获取article_id,作为后续评估锚点。该步缓存 Redis 中,有效期 24h,避免重复计算。参数:max_tokens=4096,模型选 Gemini-1.5-flash(成本低、速度快)。 -
评论预评估(Megacall):单次 API 调用聚合多检查:毒性评分、相关性、低努力、逻辑谬误、狗哨、垃圾。返回 JSON 如
{overall_score: 3/5, toxicity: 0.2, fallacies: [...], suggestions: [...]}。阈值配置:overall_score >= 3直发;<2 拒绝;2-3 反馈重写。 -
反馈与重写生成:若需改进,生成解释(如 “语气负面,可能疏远读者”)+ 重写建议。用户编辑后重新提交,形成闭环。
-
后置日志与反馈循环:记录用户接受率(accept_rate = 重写后通过数 / 总反馈),聚合 dashboard 调整提示模板或阈值。
工程清单:
- 基础设施:Node.js/Next.js 前端 SDK,FastAPI 后端代理 API,Vercel/K8s 部署。WebSocket/SSE 流式反馈,超时 2s。
- 成本控制:Gemini/Claude-3.5-sonnet,预算 $0.001 / 评论。批量 10+ 评论用 async。
- 安全:API Key 验证,输入 sanitization(防 prompt injection),不存储评论(GDPR 合规)。
毒性检测与多维度评分模块
核心是提示工程化检测。使用结构化提示(JSON 输出)确保一致性。
示例提示(toxicity + fallacies):
你是一个评论审核专家。评估评论在文章上下文[ARTICLE_SUMMARY]中的质量。
输出 JSON: {
"overall_score": 1-5,
"toxicity_score": 0-1 (0.8+ 高毒性: 威胁、人身攻击),
"low_effort": bool,
"logical_fallacies": [{"name": "strawman", "explanation": "..."}],
"dogwhistles": [{"phrase": "...", "confidence": 0.9}]
}
评论: [COMMENT]
理由简短,客观。
Respectify 的 HN 演示显示,该模块准确捕捉 “Obama sucks” 中的潜在狗哨(置信 80%),但开发者实时调低政治敏感阈值 [1]。
落地参数:
| 维度 | 阈值 | 提示温度 | 回滚策略 |
|---|---|---|---|
| Toxicity | >0.7 反馈 | 0.1 | 白名单用户直发 |
| Relevance | on_topic <0.8 | 0.2 | 关键词匹配 fallback |
| Fallacies | >1 个 | 0.1 | 人工审核队列 |
| Spam | confidence >0.9 | 0.05 | CAPTCHA + 蜜罐 |
优化:Few-shot 示例 5-10 条,提升 15% 准确。A/B 测试提示变体,监控 F1-score(目标 0.85)。
建设性重写生成
非简单过滤,重写聚焦 “保留原意、提升建设性”。提示:
基于原评论[COMMENT],生成 1-2 个重写版本:清晰、相关、尊重对方观点、无谬误。
输出: [{"rewrite": "...", "improvements": ["减少负面语气", "添加证据"]}]
上下文: [ARTICLE_SUMMARY]
保持原作者意图。
示例:原 “这个观点太蠢了” → “我不同意,因为 [理由],你怎么看?”。用户反馈显示,70% 接受率,讨论质量提升 25%(基于 HN 用户测试)。
参数:max_tokens=200,top_p=0.9(多样性)。集成编辑器:Diff 高亮原 / 新,实时预览分数。
用户反馈闭环与持续优化
闭环关键:不强制,记录行为。
- 即时循环:用户重写 → 重新 Megacall,3 次上限防滥用。
- 聚合反馈:匿名日志
{user_id, original_score, final_score, accepted_rewrites}。周聚合计算 improvement_delta,>0.5 触发提示微调(RAG + LoRA,数据集自建 10k 评论对)。 - 管理员仪表盘:Grafana 可视化 accept_rate(目标 > 60%)、false_positive(用户 “强制发布” 率 < 5%)、latency P99<1s。
风险限制:
- 偏见:政治话题过敏。缓解:多样化训练数据,定期 audit(e.g. UBI/Trump 测试集)。
- 延迟:高峰 QPS 1000。队列 + caching(相似评论 hash 复用)。
回滚:分数降级模式(toxicity 阈值 +0.2),A/B 流量 10%。
部署与监控清单
- 集成 SDK:
npm i @respectify/client,init → evaluate。 - 阈值 YAML:
thresholds: {toxicity: 0.7, score: 3},热重载。 - 监控:Prometheus (latency/cost/error_rate),Alertmanager (accept_rate<50%)。
- 测试:单元(prompt 输出稳定)、E2E(1000 评论模拟)。
- 扩展:联邦学习,用户站点共享匿名数据集。
此管道已在 Respectify WP 插件中验证,HN 讨论获 180+ 分 [2]。落地后,社区活跃度升 40%,毒性降 60%。
资料来源: [1] https://respectify.org/ (demo & docs) [2] https://news.ycombinator.com/item?id=47151842 (HN 帖子) [3] https://docs.respectify.ai/docs/SampleCode (API 示例)
(正文字数:1256)