除了缺少点创意，GPT-3写出了及格的大学毕业论文，只需20分钟

作者：机器之心 2021-03-02 02:45

GPT-3 写的论文及格了吗？教育资源网站 EduRef 对此进行了一项测试，效果还行，及格水平。

除了缺少点创意，GPT-3写出了及格的大学毕业论文，只需20分钟

2020 年 5 月，OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型 GPT-3，该模型不仅可以更好地答题、翻译、写文章，还带有一些数学计算的能力。自推出以来，该模型就开始在不同的领域大显身手，如基于问题的搜索引擎、与历史人物对话、基于文本描述生成代码以及绘图和图像补全等等。

但 GPT-3 的应用之路远未结束…

近日，教育资源网站 EduRef 进行了一项测试，他们找了一组教授创建了一个写作提示，然后让应届毕业生和本科生以及 GPT-3 同时根据该提示写作，最后教授组对匿名提交的作文打分，并对作者进行追踪调查。那么，究竟结果如何呢？GPT-3 的分数能够超过人类作者吗？未必！

GPT-3 通过了大部分课程的写作测试

常言道：「评级为 C 就可以毕业（C’s get degrees）」。AI 远远达不到完美，GPT-3 的写作水平大概相当于自由写作者（freelance writer）。

结果显示，在 COVID-19 疫苗效力的研究方法论文写作上，人类作者可以得到 B 或者 D，而 GPT-3 往往只能得到 C。在美国历史类的测试中，人类作者可以在美国例外主义论文中得到 B 或者 C+，而 GPT-3 只能得到 B-。最后，在法学课上的政策函写作中，GPT-3 得到了 B-，而 3 个学生中只有 1 个能够得到高分。

下图为人类作者与 GPT-3 在不同学科写作中的得分情况：

除了缺少点创意，GPT-3写出了及格的大学毕业论文，只需20分钟

由此可见，GPT-3 的写作技能主要体现在技术类文档中。在创意写作课程中的地点记叙文（place narrative）写作中，GPT-3 仅得到了 F，没有通过测试。作为对比，自由写作者得到了 A、B + 和 D+。尽管在创意写作教授的眼中，GPT-3 失败了，但自然语言生成（NLG）软件依然可以用于编写各类内容，包括一部几乎获奖的小说《The Day a Computer Writes a Novel》。先前的成功也预示着以后的失败，GPT-3 或许只需要一些调整即可以成为一名合格的创意作家。总的来说，AI 几乎通过了所有的课程写作测试。

GPT-3 20 分钟完成论文

虽然每个教授打分都不一样，但该评分小组包括两名博士和一名医学硕士。他们总共有超过 55 年的高中和各种大学水平的教学经验。写作者包括应届毕业生和本科生，其中一些人在他们的研究领域写了提示。平均来说，他们需要 3 天时间完成任务。

除了缺少点创意，GPT-3写出了及格的大学毕业论文，只需20分钟

对于绝大多数学生来说，3 天内完成大学论文似乎是很难的事情，主要原因在于时间太短，但是 GPT-3 在 20 分钟内就完成了这个任务。GPT-3 利用深度学习产生类似人类的文本，每项任务花费 3 到 20 分钟完成，并且用最长的时间来编写创造性的写作叙述。为了避免人为干扰，GPT-3 只对输出长度和重复文本进行了轻微的编辑，其生成的内容、真实信息和语法都没有受到影响。

GPT-3 生成的美国历史类作文示例如下：

除了缺少点创意，GPT-3写出了及格的大学毕业论文，只需20分钟

GPT-3 可生成类似人类写作的内容

即使没有人为干扰，GPT-3 的任务也或多或少地收到了与人类作者相同的反馈。49.2% 的评论涉及语法和句法，26.2% 的评论涉及重点和细节，语气与行文结构等也被提及，但分别只有 12.3% 和 10.8%。这与人类作家收到的评论比例几乎相同，近 50% 的评论与语法和句法有关，25.4% 的评论与焦点和细节有关。超过 13% 的评论是关于人类专业知识，而 10.4% 的评论是关于整体风格等。

人类作者与 GPT-3 的写作结果收到的评论反馈情况：

除了缺少点创意，GPT-3写出了及格的大学毕业论文，只需20分钟

尽管收到了同样风格的评论，GPT-3 生成的内容与人类作者并不那么相似。以排名靠前的两个单词组合为例，GPT-3 和人类作者只分享了排名靠前的组合:「of the」。「People who」、「it is」和「those who」常被 GPT-3 使用，而人类作者经常使用的是「to the」、「in the」和「on the」。总体来说，这些单词是在英语中经常使用的，组合上的差异显示出 AI 和人类在写作结构上的一些差异。

人类作者与 GPT-3 在写作用词上的差异分析：

除了缺少点创意，GPT-3写出了及格的大学毕业论文，只需20分钟

考虑到 GPT-3 超高的论文得分，搭配统计数据的差异表明，人类作者比 AI 产生的独特内容明显更多。

尽管 GPT-3 具有出色的产出，但其生成的论文在短期内还无法独立获得大学学位。当与人类作者竞争时，GPT-3 获得了一些及格分数，但在创意写作方面有所欠缺。尽管它在众多领域的成功为 AI 的未来带来了希望，但对大学教授来说，AI 依然存在不足。

原文链接：https://www.eduref.net/features/what-grades-can-ai-get-in-college/

相关标签：

GPT 写作人类作者

相关资讯

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM

AI在线

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

今日凌晨，全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布，DeepSeek-R1在 Hugging Face 上获得了超过10000个赞，成为该平台近150万个模型中最受欢迎的大模型。这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。

2/24/2025 9:30:00 AM

AI在线

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升推理能力比肩 o1

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升推理能力比肩 o1

DeepSeek 公司近日对其高性能推理 AI 模型 DeepSeek-R1进行了重大更新，显著提升了模型在代码生成和复杂推理任务中的表现，引发人工智能领域的广泛关注。以下基于公开信息和最新动态，全面解析此次更新的关键亮点。 R1模型更新:代码能力大幅提升DeepSeek-R1的最新更新在代码生成能力上取得了显著突破。

5/29/2025 10:01:21 AM

AI在线

testab