AIGC宇宙 AIGC宇宙

科技巨头被曝未经授权用 YouTube 内容训练 AI,苹果、英伟达在列

作者:远洋
2024-07-16 09:47
据 Wired 报道,包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意,就使用了他们视频的字幕文件来训练人工智能模型。AI在线注意到,此次事件影响到的创作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔等。这些被用于训练 AI 的字幕文件相当于视频的文本转录内容。调查记者披露,一些世界上最富有的科技公司一直在利用来自成千上万个 YouTube 视频的素材来训练 AI,而这违反了 You

据 Wired 报道,包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意,就使用了他们视频的字幕文件来训练人工智能模型。

科技巨头被曝未经授权用 YouTube 内容训练 AI,苹果、英伟达在列

AI在线注意到,此次事件影响到的创作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔等。这些被用于训练 AI 的字幕文件相当于视频的文本转录内容。

调查记者披露,一些世界上最富有的科技公司一直在利用来自成千上万个 YouTube 视频的素材来训练 AI,而这违反了 YouTube 禁止从平台上未经许可抓取内容的规定。据悉,超过 17.3 万个来自 4.8 万个频道的 YouTube 视频字幕文件被用来训练人工智能模型,其中就包括苹果、英伟达、Salesforce 等硅谷巨头。

据报道,下载这些字幕文件的是一个名为 EleutherAI 的非盈利组织,他们声称其目的是帮助开发者训练 AI 模型。虽然 EleutherAI 的初衷可能是为小型开发者和学术研究者提供训练材料,但该数据集也被苹果等科技巨头使用。

根据 EleutherAI 发布的一篇研究论文,这份数据集是他们发布的名为“The Pile”的大型数据集的一部分。“The Pile”中的大部分数据集都是公开的,任何拥有足够存储空间和计算能力的人都可以访问。除了科技巨头之外,一些学者和开发者也使用了该数据集。然而,苹果、英伟达和 Salesforce 等市值数百亿甚至数千亿美元的公司也在他们的研究论文和帖子中提到了他们如何使用该数据集来训练 AI 模型。

有文件显示,苹果在 4 月份发布了备受关注的 OpenELM 模型几周之前,就使用了“The Pile”进行训练。而 OpenELM 模型的发布恰逢苹果宣布将在 iPhone 和 Macbook 中加入新的 AI 功能。

需要注意的是,苹果自己并没有下载这些数据,而是由 EleutherAI 完成的。因此,从技术层面来说,是 EleutherAI 违反了 YouTube 的使用条款。

尽管苹果和其他公司可能使用了公开的数据集,但此事件凸显了从网络上抓取数据来训练 AI 系统所带来的法律风险。此前就曾出现过 AI 系统在回答小众话题时抄袭整段文本的案例,当公司使用第三方编译的数据集时,只会增加未经许可使用素材的风险。

相关标签:

相关资讯

27亿参数的「野生版」GPT-3开源,GitHub项目2.9K Star量

OpenAI 著名的语言模型 GPT-3 可以懂数学、翻译文字,还能写论文拿到及格成绩,这样的 AI 什么时候才能开源呢?现在已有了一个差不多的项目。
3/26/2021 3:50:00 PM
机器之心

英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。一位
8/6/2024 1:53:57 PM
故渊

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O
4/7/2024 7:02:17 AM
汪淼
  • 1