AIGC宇宙 AIGC宇宙

英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

作者:故渊
2024-08-06 01:53
科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。一位

科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)

该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。

该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。

不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。

一位英伟达员工透露,公司要求员工收集 YouTube、Netflix 等视频源的视频,用于训练英伟达的 Omniverse 3D 生成器、自动驾驶系统和“数字人类”(Digital Human)产品。

AI在线援引该媒体报道,该项目内部称其为 Cosmos 项目,为了规避 YouTube 的检测,英伟达使用具有轮换 IP 地址的虚拟机下载内容以避免被封禁。

英伟达员工写到:“我们在使用 AWS ,重新启动实例会分配一个新的公共 IP,所以到目前为止这不是问题。”

相关阅读:

《科技巨头被曝未经授权用 YouTube 内容训练 AI,苹果、英伟达在列》

相关标签:

相关资讯

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O
4/7/2024 7:02:17 AM
汪淼

被索赔 500 万美元,OpenAI 遭 YouTube 主播集体诉讼:擅用其内容训练 AI

感谢一位 YouTube 主播上周五向美国加利福尼亚州北区地方法院递交集体诉讼文件,指控 OpenAI 公司在未告知通知视频所有者或向其提供补偿的情况下,擅自抓取数百万个 YouTube 视频脚本,用于训练 AI 生成模型。该主播名为大卫・米莱特(David Millette),来自美国马萨诸塞州,指控 OpenAI 公司抓取其和其他主播创作者的视频,用于训练 AI 模型,涉及的产品包括 ChatGPT、Sora 等等。集体诉讼文件认为 OpenAI 收集这些数据,并得到了“丰厚的回报”,但这种做法违反了版权法和
8/6/2024 11:29:45 AM
故渊

谷歌 CEO 皮查伊:若 OpenAI 用 YouTube 训练 AI ,公司将采取法律行动

感谢CNBC 消息,谷歌公司 CEO 桑达尔・皮查伊表示:如果确定微软支持的 OpenAI 依赖 YouTube 内容来训练能够生成视频的人工智能模型,谷歌将“解决这个问题”(采取法律行动)。IT之家此前报道,OpenAI 首席技术官在接受采访时语焉不详,无法明确说明 Sora 的训练数据来源。当记者追问具体来源是否包含 YouTube 视频时,她竟然表示“我实际上并不确定(I'm actually not sure about that)”。皮查伊在被问及 OpenAI 是否可能违反谷歌的条款和条件时,皮查伊答道
5/17/2024 10:30:31 AM
沛霖(实习)
  • 1