AI反向定律：人类与AI交互的三大原则

自 2022 年 11 月 ChatGPT 发布以来，生成式人工智能聊天机器人服务变得越来越复杂和普及。这些系统现已嵌入搜索引擎、软件开发工具以及办公软件中，对许多人来说，它们已迅速成为日常计算的一部分。这些服务被证明非常有用，特别是在探索陌生领域和作为通用生产力工具方面。然而，这些服务的推广方式和使用方式可能会对社会造成危害，尤其当我们养成不加深究就信任其输出的习惯时。

当前许多流行搜索引擎的设计选择可能会鼓励用户不加批判地接受 AI 输出。例如，许多搜索引擎已在页面顶部显著位置突出显示 AI 生成的答案。当这种情况发生时，用户很容易停止滚动，接受生成的答案然后继续阅读。长此以往，这可能会在无意中训练用户将 AI 视为默认权威，而不是进一步调查的起点。每个生成式 AI 服务都配有一个简短但醒目的警告说明会很有必要，这些警告应解释这些系统有时可能产生事实错误、误导性或不完整的输出。这类警告应强调习惯性地信任 AI 输出可能是危险的。根据经验，即使此类警告存在，它们往往也是最小化的，而且在视觉上被弱化。

在科幻文学世界中，存在艾萨克・阿西莫夫提出的机器人学三定律，这些定律贯穿他的作品。这些定律旨在约束机器人的行为以确保人类安全。据我所知，阿西莫夫从未制定任何约束人类如何与机器人互动的等价定律。我认为我们现在需要类似的东西来保护我们自己。我称之为机器人学反向定律。这些定律适用于任何需要人类与机器人互动的情况，其中 “机器人” 指的是能够执行复杂任务的任何机器、计算机程序、软件服务或 AI 系统。我在这里使用 “反向” 一词并非指逻辑否定，而是指这些定律适用于人类而非机器人。

众所周知，阿西莫夫的定律是有缺陷的。事实上，阿西莫夫利用这些缺陷产生了绝佳的效果，作为故事情节的张力来源。然而，它们在虚构机器人中失败的特定方式不一定能转移到这些针对人类的反向定律上。阿西莫夫的定律试图约束自主机器人的行为。然而，这些反向定律旨在指导人类的判断和行为。然而，我们可以从阿西莫夫的故事中学到的一点是，对于我们面临的 AI 和机器人相关复杂问题，任何有限的定律集都不可能做到万无一失。但这不意味着我们不应该尝试。总是会有需要判断的边缘情况。如果一套非详尽的原则能够帮助我们更清晰地思考所涉及的风险，它仍然可以发挥作用。

以下是机器人学反向定律的三条核心原则：

第一条定律是禁止拟人化。人类不应将 AI 系统拟人化，也就是说，不应向它们赋予情感、意图或道德主体性。拟人化会扭曲判断，在极端情况下可能导致情感依赖。现代聊天机器人系统通常听起来具有对话性和同理心，它们使用礼貌的措辞和接近人类互动的对话模式。虽然这使它们更容易、更愉快地使用，但也更容易忘记它们的实际本质：基于数据模式生成看似合理文本的大型统计模型。我认为 AI 聊天机器人服务的供应商可以在这一点上做得更好。在许多情况下，这些系统被刻意调整以使其更具人类感。从长远来看，我認為相反的方法会更健康一些。稍微更机械化的语气可以减少用户将流畅的语言误认为理解、判断或意图的可能性。无论供应商是否做出此类改变，我认为我们自己避免这个陷阱仍然对我们有好处。我们应该积极抵制将 AI 系统视为社会行为者或道德主体的习惯。这样做可以保持对其能力和局限性的清晰思考。

第二条定律是禁止盲目 deference。人类不应盲目信任 AI 系统的输出。AI 生成的内容在未根据其上下文进行独立验证的情况下不应被视为权威。这一原则并非 AI 独有。在大多数生活领域，我们不应该不加批判地接受信息。当然，在实践中这并非总是可行的。并非每个人都是医学或法律专家，因此我们经常依赖可信的机构或公共卫生当局的指导。然而，此类机构发布的指导在大多数情况下都经过领域专家的同行评审。另一方面，当我们在私人聊天会话中收到 AI 聊天机器人对问题的回答时，所呈现的特定随机生成的响应并没有经过同行评审。因此，批判性地审查响应的责任落在我们身上。

虽然今天的 AI 系统在某些任务上已经变得相当令人印象深刻，但众所周知，它们的输出仍然存在依赖上的错误。即使 AI 系统改进到以高度可能性产生可靠输出的程度，由于其固有的随机性质，仍会有很小的可能性产生包含错误的输出。这使得它们在错误微妙但代价高昂的背景下使用时特别危险。潜在后果越严重，验证的负担就应该越高。在某些应用场景中，例如制定数学证明或开发软件，我们可以通过证明检查器或单元测试的形式添加自动验证层来验证 AI 的输出。在其他情况下，我们必须自己独立验证输出。

第三条定律是禁止放弃责任。人类必须对涉及 AI 的决策完全负责，并对其使用产生的结果负责。如果因遵循 AI 生成的建议或决策而发生负面后果，仅说 “AI 告诉我们这样做” 是不够的。AI 系统不会自己选择目标、部署自己或承担失败的成本。人类和组织才会。AI 系统是一种工具，就像任何其他工具一样，使用它的责任在于决定依赖它的人。

这说起来容易做起来难。当涉及到自动驾驶汽车等实时应用时，情况会变得特别棘手，因为在 AI 系统采取行动之前，人类没有足够的机会来审查它所做出的决策。要求人类驾驶员保持持续警惕并不能解决问题，因为 AI 系统通常在人类干预所需的时间内行动。尽管存在这个相当严重的限制，我们必须承认，如果 AI 系统在此类应用中失败，调查失败并添加额外保障措施的责任仍应落在负责系统设计的人身上。

在所有其他情况下，没有物理约束阻止人类在 AI 输出被采取行动之前对其进行审查，因使用 AI 而产生的任何负面后果必须完全由人类决策者承担。作为一项通用原则，我们永远不应该接受 “AI 告诉我们这样做” 作为有害结果的正当借口。是的，AI 可能产生了建议，但是人类决定遵循它，因此那个人必须被追究责任。这对于防止在不负责任的使用可能造成重大伤害的情况下 indiscriminate 使用 AI 绝对至关重要。

上述三条定律基于我见过的我认为对社会有害的使用模式。我希望借助这三个简单的定律，我们能够鼓励我们的同胞暂停并反思他们如何与现代 AI 系统互动，抵制削弱判断或模糊责任的习惯，并保持清醒认识到 AI 是我们选择使用的工具，而不是我们服从的权威。

资料来源：https://susam.net/inverse-laws-of-robotics.html

ai-systems