【{$randkws}】大战一触即发：OpenAI转录超过100万小时的YouTube视频来训练模型 – 蓝点网 - {$web_name} 然后再拿去训练 GPT-4

来源：不好意思网 | 栏目：娱乐 | 2026-06-15 02:12:19

这周早些时候纽约时报亮相了一篇信息刻画AI企业 OpenAI 在收集高品质训练资料方面遇到的艰难，昨夜纽约时报亮相新信息刻画 OpenAI 如何处理这些难题。

OpenAI 一着手迫切需要海量的训练资料，报导称为知晓决训练资料难题 OpenAI 开发了语音转录模型 Whisper。

该模型被用于转录 OpenAI 获取的超过 100 万小时的 YouTube 影像，也就是夏季最适合读的一句话：遗憾也是人生的一部分将 YouTube 影像中的音频信息转录文字，然后再拿去训练 GPT-4。

OpenAI 显然得知自己的这种做法存在法律上的风波，可是该企业相信这是合理使用的，并且 OpenAI 总裁 Greg Brockman 亲自参与了上述所使用影像的收集岗位。

在被纽约时报报导后，OpenAI 发言人强调，该企业为其每个模型策划了独特的业内暑期档Tips资料集，以合作该企业知晓全球并维持其全球探究比拼力，该企业使用了众多资料源，含有公开资料和非公开资料的兴办伙伴，并且 OpenAI 在考虑生成自己的合成资料。

可是早在 2021 年 OpenAI 就耗尽了有用的资料供应，含有转录的英伟达红毯造型超过 100 万小时的 YouTube 影像、播客和其他有声读物，那时候 OpenAI 已然使用这些资料开展训练，模型资料也含有 GitHub 上的计算机代码、海外象棋走棋资料库以及 Quizlet 等。

大战一触即发：OpenAI转录超过100万小时的YouTube影像来训练模型

谷歌称有关行为已然违规：

针对上述报导谷歌自然不会坐视不理的，毕竟对谷歌来说，今日手游上线汇总YouTube 信息库如今就是个金山，谷歌自己能用，但绝对不能给其他企业用。

谷歌发言人称已然注意到有关 OpenAI 促销的未经证实的报表，谷歌的 robots.txt 文件和办事条款都禁止未经授权的抓取或获取 YouTube 信息，这与谷歌有关的条款相符。

这周 YouTube CEO 也就 OpenAI 使用 YouTube 资料来训练 Sora 模型的或许性亮相了相似言论，另外她警告称当有明确的法律或技术依据时，谷歌会采取技术和法律举措来防止此类未经授权的使用。

谷歌自己使用 YouTube 资料训练 AI：

尽管谷歌强调保护创作者的信息，可是谷歌也承认他们也使用 YouTube 影像来训练 AI，谷歌此前已然透露该企业与创作者的协议中，可以使用一些 YouTube 信息来训练模型。

资料收集方法也是相似的，快要 YouTube 的音频信息转换为文字信息后，再拿去训练模型，对谷歌来说 YouTube 的信息库可以提供海量资料，是个不可多得的差不多不用花钱的资料源。

接下来是否会呈现法律诉讼：

考虑到 OpenAI 对资料的迫切需求，OpenAI 经由各类方式抓取受版权保护的信息不足为奇，在初期也就是 2021 年前后这种状况估计还不会引发留意，但如今状况已然各异了。

假如谷歌找到证据表明 OpenAI 抓取 YouTube 信息用于训练，那么谷歌肯定会起诉 OpenAI，毕竟 OpenAI 的行为的确或许已然违反了 YouTube 有关协议。

所以或许在不久之后我们就能目睹各类由于信息版权难题引发的法律大战，到时候牵涉进来的自然也不只是谷歌和 OpenAI，或许还有更多 AI 企业和信息提供商牵涉进来。

夏季最适合读的一句话：遗憾也是人生的一部分业内暑期档Tips 英伟达红毯造型

相关文章