Respectify：工程化实时评论毒性检测、重构重写与用户反馈循环的LLM管道

在在线社区中，评论区的毒性内容、低效争论和脱题讨论常常破坏 discourse 质量。Respectify 提供了一个创新的 LLM 驱动管道，不仅检测问题，还通过教育性反馈和重写建议引导用户改进，实现从 “惩罚式审核” 向 “建设性引导” 的转变。本文聚焦工程化实现该管道的核心技术点：实时毒性检测、建设性重写生成，以及用户反馈闭环，确保低延迟（<500ms）、高准确率（>85%）的同时，支持可配置阈值和监控。

管道整体架构

LLM 管道采用客户端 - 服务端混合模式，确保实时性。流程如下：

Topic 初始化：评论上下文依赖文章主题。调用 API initTopicFromUrl(url) 或 initTopicFromText(text) 获取 article_id，作为后续评估锚点。该步缓存 Redis 中，有效期 24h，避免重复计算。参数：max_tokens=4096，模型选 Gemini-1.5-flash（成本低、速度快）。
评论预评估（Megacall）：单次 API 调用聚合多检查：毒性评分、相关性、低努力、逻辑谬误、狗哨、垃圾。返回 JSON 如 {overall_score: 3/5, toxicity: 0.2, fallacies: [...], suggestions: [...]}。阈值配置：overall_score >= 3 直发；<2 拒绝；2-3 反馈重写。
反馈与重写生成：若需改进，生成解释（如 “语气负面，可能疏远读者”）+ 重写建议。用户编辑后重新提交，形成闭环。
后置日志与反馈循环：记录用户接受率（accept_rate = 重写后通过数 / 总反馈），聚合 dashboard 调整提示模板或阈值。

工程清单：

基础设施：Node.js/Next.js 前端 SDK，FastAPI 后端代理 API，Vercel/K8s 部署。WebSocket/SSE 流式反馈，超时 2s。
成本控制：Gemini/Claude-3.5-sonnet，预算 $0.001 / 评论。批量 10+ 评论用 async。
安全：API Key 验证，输入 sanitization（防 prompt injection），不存储评论（GDPR 合规）。

毒性检测与多维度评分模块

核心是提示工程化检测。使用结构化提示（JSON 输出）确保一致性。

示例提示（toxicity + fallacies）：

你是一个评论审核专家。评估评论在文章上下文[ARTICLE_SUMMARY]中的质量。
输出 JSON: {
  "overall_score": 1-5,
  "toxicity_score": 0-1 (0.8+ 高毒性: 威胁、人身攻击),
  "low_effort": bool,
  "logical_fallacies": [{"name": "strawman", "explanation": "..."}],
  "dogwhistles": [{"phrase": "...", "confidence": 0.9}]
}
评论: [COMMENT]
理由简短，客观。

Respectify 的 HN 演示显示，该模块准确捕捉 “Obama sucks” 中的潜在狗哨（置信 80%），但开发者实时调低政治敏感阈值 [1]。

落地参数：

维度	阈值	提示温度	回滚策略
Toxicity	>0.7 反馈	0.1	白名单用户直发
Relevance	on_topic <0.8	0.2	关键词匹配 fallback
Fallacies	>1 个	0.1	人工审核队列
Spam	confidence >0.9	0.05	CAPTCHA + 蜜罐

优化：Few-shot 示例 5-10 条，提升 15% 准确。A/B 测试提示变体，监控 F1-score（目标 0.85）。

建设性重写生成

非简单过滤，重写聚焦 “保留原意、提升建设性”。提示：

基于原评论[COMMENT]，生成 1-2 个重写版本：清晰、相关、尊重对方观点、无谬误。
输出: [{"rewrite": "...", "improvements": ["减少负面语气", "添加证据"]}]
上下文: [ARTICLE_SUMMARY]
保持原作者意图。

示例：原 “这个观点太蠢了” → “我不同意，因为 [理由]，你怎么看？”。用户反馈显示，70% 接受率，讨论质量提升 25%（基于 HN 用户测试）。

参数：max_tokens=200，top_p=0.9（多样性）。集成编辑器：Diff 高亮原 / 新，实时预览分数。

用户反馈闭环与持续优化

闭环关键：不强制，记录行为。

即时循环：用户重写 → 重新 Megacall，3 次上限防滥用。
聚合反馈：匿名日志 {user_id, original_score, final_score, accepted_rewrites}。周聚合计算 improvement_delta，>0.5 触发提示微调（RAG + LoRA，数据集自建 10k 评论对）。
管理员仪表盘：Grafana 可视化 accept_rate（目标 > 60%）、false_positive（用户 “强制发布” 率 < 5%）、latency P99<1s。

风险限制：

偏见：政治话题过敏。缓解：多样化训练数据，定期 audit（e.g. UBI/Trump 测试集）。
延迟：高峰 QPS 1000。队列 + caching（相似评论 hash 复用）。

回滚：分数降级模式（toxicity 阈值 +0.2），A/B 流量 10%。

部署与监控清单

集成 SDK：npm i @respectify/client，init → evaluate。
阈值 YAML：thresholds: {toxicity: 0.7, score: 3}，热重载。
监控：Prometheus (latency/cost/error_rate)，Alertmanager (accept_rate<50%)。
测试：单元（prompt 输出稳定）、E2E（1000 评论模拟）。
扩展：联邦学习，用户站点共享匿名数据集。

此管道已在 Respectify WP 插件中验证，HN 讨论获 180+ 分 [2]。落地后，社区活跃度升 40%，毒性降 60%。

资料来源： [1] https://respectify.org/ (demo & docs) [2] https://news.ycombinator.com/item?id=47151842 (HN 帖子) [3] https://docs.respectify.ai/docs/SampleCode (API 示例)

（正文字数：1256）