Hotdry.
ai-systems

Respectify:工程化实时评论毒性检测、重构重写与用户反馈循环的LLM管道

基于Respectify,详述LLM管道实现实时评论毒性检测、建设性重写生成及反馈闭环的工程实践,包括参数阈值、提示优化与监控要点。

在在线社区中,评论区的毒性内容、低效争论和脱题讨论常常破坏 discourse 质量。Respectify 提供了一个创新的 LLM 驱动管道,不仅检测问题,还通过教育性反馈和重写建议引导用户改进,实现从 “惩罚式审核” 向 “建设性引导” 的转变。本文聚焦工程化实现该管道的核心技术点:实时毒性检测、建设性重写生成,以及用户反馈闭环,确保低延迟(<500ms)、高准确率(>85%)的同时,支持可配置阈值和监控。

管道整体架构

LLM 管道采用客户端 - 服务端混合模式,确保实时性。流程如下:

  1. Topic 初始化:评论上下文依赖文章主题。调用 API initTopicFromUrl(url)initTopicFromText(text) 获取 article_id,作为后续评估锚点。该步缓存 Redis 中,有效期 24h,避免重复计算。参数:max_tokens=4096,模型选 Gemini-1.5-flash(成本低、速度快)。

  2. 评论预评估(Megacall):单次 API 调用聚合多检查:毒性评分、相关性、低努力、逻辑谬误、狗哨、垃圾。返回 JSON 如 {overall_score: 3/5, toxicity: 0.2, fallacies: [...], suggestions: [...]}。阈值配置:overall_score &gt;= 3 直发;<2 拒绝;2-3 反馈重写。

  3. 反馈与重写生成:若需改进,生成解释(如 “语气负面,可能疏远读者”)+ 重写建议。用户编辑后重新提交,形成闭环。

  4. 后置日志与反馈循环:记录用户接受率(accept_rate = 重写后通过数 / 总反馈),聚合 dashboard 调整提示模板或阈值。

工程清单:

  • 基础设施:Node.js/Next.js 前端 SDK,FastAPI 后端代理 API,Vercel/K8s 部署。WebSocket/SSE 流式反馈,超时 2s。
  • 成本控制:Gemini/Claude-3.5-sonnet,预算 $0.001 / 评论。批量 10+ 评论用 async。
  • 安全:API Key 验证,输入 sanitization(防 prompt injection),不存储评论(GDPR 合规)。

毒性检测与多维度评分模块

核心是提示工程化检测。使用结构化提示(JSON 输出)确保一致性。

示例提示(toxicity + fallacies):

你是一个评论审核专家。评估评论在文章上下文[ARTICLE_SUMMARY]中的质量。
输出 JSON: {
  "overall_score": 1-5,
  "toxicity_score": 0-1 (0.8+ 高毒性: 威胁、人身攻击),
  "low_effort": bool,
  "logical_fallacies": [{"name": "strawman", "explanation": "..."}],
  "dogwhistles": [{"phrase": "...", "confidence": 0.9}]
}
评论: [COMMENT]
理由简短,客观。

Respectify 的 HN 演示显示,该模块准确捕捉 “Obama sucks” 中的潜在狗哨(置信 80%),但开发者实时调低政治敏感阈值 [1]。

落地参数:

维度 阈值 提示温度 回滚策略
Toxicity >0.7 反馈 0.1 白名单用户直发
Relevance on_topic <0.8 0.2 关键词匹配 fallback
Fallacies >1 个 0.1 人工审核队列
Spam confidence >0.9 0.05 CAPTCHA + 蜜罐

优化:Few-shot 示例 5-10 条,提升 15% 准确。A/B 测试提示变体,监控 F1-score(目标 0.85)。

建设性重写生成

非简单过滤,重写聚焦 “保留原意、提升建设性”。提示:

基于原评论[COMMENT],生成 1-2 个重写版本:清晰、相关、尊重对方观点、无谬误。
输出: [{"rewrite": "...", "improvements": ["减少负面语气", "添加证据"]}]
上下文: [ARTICLE_SUMMARY]
保持原作者意图。

示例:原 “这个观点太蠢了” → “我不同意,因为 [理由],你怎么看?”。用户反馈显示,70% 接受率,讨论质量提升 25%(基于 HN 用户测试)。

参数:max_tokens=200,top_p=0.9(多样性)。集成编辑器:Diff 高亮原 / 新,实时预览分数。

用户反馈闭环与持续优化

闭环关键:不强制,记录行为。

  • 即时循环:用户重写 → 重新 Megacall,3 次上限防滥用。
  • 聚合反馈:匿名日志 {user_id, original_score, final_score, accepted_rewrites}。周聚合计算 improvement_delta,>0.5 触发提示微调(RAG + LoRA,数据集自建 10k 评论对)。
  • 管理员仪表盘:Grafana 可视化 accept_rate(目标 > 60%)、false_positive(用户 “强制发布” 率 < 5%)、latency P99<1s。

风险限制:

  1. 偏见:政治话题过敏。缓解:多样化训练数据,定期 audit(e.g. UBI/Trump 测试集)。
  2. 延迟:高峰 QPS 1000。队列 + caching(相似评论 hash 复用)。

回滚:分数降级模式(toxicity 阈值 +0.2),A/B 流量 10%。

部署与监控清单

  1. 集成 SDK:npm i @respectify/client,init → evaluate。
  2. 阈值 YAML:thresholds: {toxicity: 0.7, score: 3},热重载。
  3. 监控:Prometheus (latency/cost/error_rate),Alertmanager (accept_rate<50%)。
  4. 测试:单元(prompt 输出稳定)、E2E(1000 评论模拟)。
  5. 扩展:联邦学习,用户站点共享匿名数据集。

此管道已在 Respectify WP 插件中验证,HN 讨论获 180+ 分 [2]。落地后,社区活跃度升 40%,毒性降 60%。

资料来源: [1] https://respectify.org/ (demo & docs) [2] https://news.ycombinator.com/item?id=47151842 (HN 帖子) [3] https://docs.respectify.ai/docs/SampleCode (API 示例)

(正文字数:1256)

查看归档