AIGC宇宙 AIGC宇宙

《自然》杂志研究:AI 追踪他人心理状态能力与人类相当或超越人类

在本月下旬最新一期的《自然-人类行为》期刊上,刊登了一篇关于 AI 的研究论文,其中提到,在测试追踪他人心理状态能力的任务中,两类 AI 大语言模型在特定情况下,具备与人类相似甚至超越人类的表现。图源 Pixabay作为人类沟通交流、产生共鸣的关键,心理状态能力(也称心智理论)对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起,选择能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼等。IT之家注:

在本月下旬最新一期的《自然-人类行为》期刊上,刊登了一篇关于 AI 的研究论文,其中提到,在测试追踪他人心理状态能力的任务中,两类 AI 大语言模型在特定情况下,具备与人类相似甚至超越人类的表现。

《自然》杂志研究:AI 追踪他人心理状态能力与人类相当或超越人类

图源 Pixabay

作为人类沟通交流、产生共鸣的关键,心理状态能力(也称心智理论)对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起,选择能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼等。

IT之家注:该团队选用了 GPT 和 LLaMA2 模型进行试验,并与 1907 人进行对比。

结果显示,GPT 模型在识别间接要求、错误想法和误导的表现能达到有时甚至超越人类平均水平,而 LLaMA2 的表现逊于人类水平;在识别失礼方面,LLaMA2 强于人类,但 GPT 表现不佳。

据中新社报道,该作者表示,LLaMA2 的成功被证明是因为回答“偏见程度”较低,并非真的对失礼敏感,GPT“表现不佳”则是因为对坚持结论具有“超保守”的态度,而非推理错误。

IT之家附论文地址:《Testing theory of mind in large language models and humans》

相关资讯

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布,其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术,利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化,进一步提升了模型性能。 在 watsonx.ai平台上,用户可以通过两种方式使用 DeepSeek 蒸馏模型。
2/11/2025 2:25:00 PM
AI在线

DeepSeek-R1 登顶 Hugging Face:以10000 赞力压 150 万个模型

今日凌晨,全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布,DeepSeek-R1在 Hugging Face 上获得了超过10000个赞,成为该平台近150万个模型中最受欢迎的大模型。 这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。
2/24/2025 9:30:00 AM
AI在线

DeepSeek 更新 R1 推理 AI 模型:代码生成与复杂推理性能大幅提升 推理能力比肩 o1

DeepSeek 公司近日对其高性能推理 AI 模型 DeepSeek-R1进行了重大更新,显著提升了模型在代码生成和复杂推理任务中的表现,引发人工智能领域的广泛关注。 以下基于公开信息和最新动态,全面解析此次更新的关键亮点。 R1模型更新:代码能力大幅提升DeepSeek-R1的最新更新在代码生成能力上取得了显著突破。
5/29/2025 10:01:21 AM
AI在线
testab