AIGC宇宙 AIGC宇宙

研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人

作者:远洋
2024-06-17 02:51
感谢最新研究称,越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解,“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是
感谢最新研究称,越来越多的人难以在图灵测试中区分 GPT-4 和人类。

研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人

图源 Pexels

据IT之家了解,“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。

加州大学圣地亚哥分校的研究人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是人还是机器。

这项测试的结果发表于预印网站 arXiv 上,结果显示,有 54% 的参与者将 GPT-4 误认为真人。相比之下,预先设定好回复的 ELIZA 只有 22% 的人将其认作真人,GPT-3.5 则为 50%,而人类对话者被正确辨认的比例则为 67%。

研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人

研究人员指出,图灵测试过于简单,对话的风格和情感因素在测试中扮演着比传统智能认知更重要的角色。

电气和电子工程师协会 (IEEE) 的人工智能研究员内尔・沃森 (Nell Watson) 表示,单纯的智力并不能代表一切,真正重要的是足够智能地理解情境、他人的技能并具备同理心将这些要素结合起来。能力仅仅是 AI 价值的一部分,理解人类的价值观、偏好和界限也同样重要,正是这些品质才能让 AI 成为我们生活中忠诚可靠的管家。

沃森还提到,这项研究对未来的人机交互提出了挑战,人们将会对互动对象的真实性愈发疑虑,尤其是在涉及敏感话题时。同时,这项研究也凸显了 GPT 时代人工智能的巨大进步。

相关标签:

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线

OpenAI发布GPT-4.1系列模型,编码与多模态能力全面升级

人工智能领域的竞争日趋白热化,OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉,OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。 这些模型在性能上全面超越现有GPT-4o及GPT-4o mini,尤其在编码、指令遵循和多模态能力上表现突出。
4/15/2025 10:01:37 AM
AI在线
  • 1