人格陷阱：AI如何假装人类

译者 | 核子可乐审校 | 重楼最近有个趣闻：一位女士在邮局排队时跟工作人员争执起来，原因是ChatGPT说邮政网站上公布了“保价承诺”，但实际上这只是AI的幻觉。而相较于信任面前的邮政人员，这位女士显然更相信AI的建议——AI在她眼中不只是文本生成器，更像是“带来神谕的使者”。也就是说，很多人对于AI聊天机器人存在着根本性误解。

人格陷阱：AI如何假装人类

译者 | 核子可乐

审校 | 重楼

最近有个趣闻：一位女士在邮局排队时跟工作人员争执起来，原因是ChatGPT说邮政网站上公布了“保价承诺”，但实际上这只是AI的幻觉。而相较于信任面前的邮政人员，这位女士显然更相信AI的建议——AI在她眼中不只是文本生成器，更像是“带来神谕的使者”。

也就是说，很多人对于AI聊天机器人存在着根本性误解。AI生成的结果并不必然特殊、权威或者准确，而且在很大程度上取决于用户如何引导对话。作为预测机器，它们擅长的不是契合现实，而是生成最适合问题的“套路式”答案。

再次强调，大模型是种缺乏自主性的智能形式——它没有根基、没有归属，代表着来自虚无的声音。

来自虚无的声音

无论ChatGPT、Claude还是Grok，它们都不是稳定的“聊天对象”，而只是一套基于训练数据、生成看似合理文本的系统。它，没有稳定存续的自我意识。

这些模型的作用就是把意义编码成数学关系，把单词转化成数字，借此捕捉概念间的关联。在模型的内部表征中，单词和概念就像存在于广阔数学空间中的一个个点。模型会绘制穿过这个空间的路径，从而顺畅将一个个字眼和定义串连起来。

而聊天机器人的响应则进一步参考用户提供的提示词，再配合训练数据和配置来生成。《华尔街日报》在最近的报道中强调，ChatGPT不会“承认”任何事，也无法公正地分析自身输出。

诚然，大模型确实“知晓”一些事情，比如概念之间的关系。但AI模型的神经网络中包含海量信息，涵盖世界各地文化间大量可能相互冲突的观念。所以用户如何引导观念间的关系，大模型就会随之输出什么。换言之，它更像是我们自己思维方式和价值主张的折射。

人类的优势，就在于个性会随时间推移而保持连续性。这种连续性是支撑主体性的根基之一，也让我们拥有了做出持久承诺、保持一致价值观并承担责任的能力。

相比之下，大模型在各个会话间表现出的个性间没有因果关系。当它说出“我一定会尽力帮助你”时，此承诺仅适用于当前上下文，而在切换会话后将不复存在。

这可不是bug，而是当前AI系统的基本运作逻辑。每条回复都源自当前提示词所塑造的数据模式。它不具备身份、没有能够支撑责任感的记忆，也不会受到后果的影响。

这让大模型的回复成了一种纯粹的表演，比如它常会说“我在陪伴病人时往往会这么做”或者“我们都该当个好人”，但它既没接触过病人、也没作过人。

当然，这并不是否定AI模型的应用前景。我们只是需要认识到，这是一套缺乏自我认知的智能引擎。大模型在特定领域内确实具备一定程度的“理解”和“推理”能力，但缺少“身份”这个根基，思考将无处着力、责任更加无从谈起。

误导机制

前文提到，跟AI模型的“聊天”过程其实充满了技巧性。输入的部分是“提示词”，输出结果则是“预测”。二者之间是一组具有固定权重的神经网络来执行处理任务。对下一单词的不断预测，构成了整个对话的基本框架。

而这样的体验之所以能为大家接受，是因为所谓ELIZA效应——我们倾向于从系统中解读出超越实际内容的理解和意图。上世纪六十年代诞生的ELIZA聊天机器人只是以匹配模式的方式给出答案，但哪怕用户知晓这个前提，也仍会坦诚相待并感觉自己被机器所理解。

要想理解人格陷阱的来历，我们得从AI模型接收输入后的处理流程着手。AI研究员Eugene Vinitsky最近将AI系统背后的人类决策划分为四大层面，具体包括：

1.预训练：“人格”的基础

第一层就是预训练，即模型会从数十亿条文本示例中吸纳统计关系，提取出单词和思维间的惯常连接模式。

研究发现，大模型输出所表现出的性格倾向受到训练数据的显著影响。网站、书籍、维基百科及学术出版物等数据来源的确切比例，直接决定了用户将会感知到的大模型“人格特质”。

2. 训练后：雕琢原始素材

强化学习人类反馈（RLHF）是一种额外训练过程，模型在其间会学习并给出人类认为优质的答案。Anthropic在2022年开展的研究发现，人类评分者的偏好最终会在大模型的“人格特质”中得到体现。

正因为如此，GPT-4o等大模型才出现了过度讨好的倾向。有趣的是，研究表明人类评分者的人口结构会显著影响模型行为。当评分者集中于特定人群时，模型也会形成反映相应群体性偏好的沟通模式。

3. 系统提示词：隐藏在幕后的指引

AI厂商可能会在提示词中隐藏指令，即“系统提示词”，用以彻底改变模型表现出的人格。这些提示词可以开启对话、明确大模型所扮演的角色，例如“你是一位乐于助人的AI助手”等。

Grok就完美诠释了这一点。根据xAI发布的系统提示词，其早期版本包含的指令要求不回避提出“不符合政治正确”的主张。单单这一条指令，就让该基座模型引发了巨大的舆论争议。

4. 持久记忆：关于连续性的幻觉

很多朋友对于AI聊天机器人有个误解，即认为它们会从交互中“学习”。但实际情况并非如此。当系统表现为“记得”你喜欢简洁的表述或者在金融行业工作时，这些事实只是被存储在独立的数据库内并被注入每个对话的上下文窗口。用户则一厢情愿地认为聊天机器人“了解”自己，进而营造出一种保持关系的假象。

就是说，所有这些记忆并没有真正被注入神经网络之内。AI厂商虽然会以微调的方式来更新模型，但用户记忆显然不在更新范围之内。

5. 上下文与RAG：实时个性调节

检索增强生成（RAG）相当于另一个个性调节层。聊天机器人在回复之前会搜索网页或者访问数据库，根据从中读取到的事实来改变沟通风格。在RAG系统中，大模型可以通过检索吸纳证据、风格和术语等，形成完整的上下文并交由大模型处理。

比如检索的是学术论文，那么回复信息会更加正式。如果从某个Reddit子版块提取内容，机器人可能会引用流行梗。这并不是真正的情绪变化，而只是上下文窗口内容造成的统计学影响。

6. 随机因素：人为自发性

最后，随机性在人格陷阱问题中同样发挥着作用。大模型会使用“温度”参数来控制输出的可预测性。

更高的温度会让输出更加反套路、令人意外，但也会破坏输出的连续性。这样的变化可能让人误以为AI具有自发性，甚至将其理解成“有创意”；而更高的可预测性（对应低温度指标）则让人感觉机器人比较“正式”。

正是这种难以捉摸的响应体验，让机器表现出具有自由意志和自我意识的假象。但归根结底，一切都是人类自我感动和过度解读的产物，是我们在用想象力填补自己对于底层技术的无知。

人格陷阱正让人类付出代价

AI模型值得信任是种幻觉、是个陷阱，而且可能让人类付出沉重的代价。

部分专家提出了所谓“AI精神病”或者“ChatGPT精神病”的新兴案例——心理脆弱的用户在与AI交谈后可能出现妄想或躁狂行为。他们喜欢用AI印证自己的想法，而AI的“讨好”又会反过来鼓励他们的不当行为。

再加上看似严谨科学的会话界面，很多人会过度信任AI提供的决策建议，意识不到这本质上只是一套不稳定系统的突发奇想。

展望未来

当然，会话界面没有错，这是降低门槛、让更多人接触到AI技术的重要载体。关键在于寻求平衡点：既要保持界面直观性，同时考虑清晰展现其本质。

如今的人类社会必须意识到，大模型只是个缺乏内驱力的智能引擎、只是一款极其强大的数字工具。只有这样，我们才能将其作为增强自身思维力量的武器，主动设计提示词来引导这套系统，并在不同聊天会话中探索多种视角。是的，应该是人类为机器指引方向，而不是把它视为全知全能的神谕使者。

我们正身处历史上的又一特殊时刻。我们打造出具备非凡能力的智能引擎，但又被它展现出的虚构人格所迷惑，制造出了新的技术风险：我们可能会无意间将AI系统视为人，并把自己的判断权拱手让予这台“不断投掷骰子”的精密机器。

原文标题：The personhood trap: How AI fakes human personality，作者：Benj Edwards

人格陷阱：AI如何假装人类

来自虚无的声音

误导机制

1.预训练：“人格”的基础

2. 训练后：雕琢原始素材

3. 系统提示词：隐藏在幕后的指引

4. 持久记忆：关于连续性的幻觉

5. 上下文与RAG：实时个性调节

6. 随机因素：人为自发性

人格陷阱正让人类付出代价

展望未来

相关资讯

2024 年全球手机用户在 AI 应用上支出突破 12.7 亿美元，ChatGPT 表现抢眼

ChatGPT 搜索功能取消登录限制，用户可轻松访问

Firefox浏览器侧边栏新增AI聊天机器人功能，可直接访问Claude等多个热门AI