YouTube成AI训练新宠？ OpenAI操作手法曝光

以聊天机器人ChatGPT一炮而红的人工智能公司Open，去年发布功能更强大的GPT-4，成为领域的衡量标竿。而这样快速的进步或许靠的正是影片的「帮忙」。据《纽约时报》报导，Open利用AI版权法的模糊地带，转录了超过100万小时的影片，用于训练其先进大型语言模型GPT-4。

本文引用地址：

是网络上最大且最丰富的图像、音频与文字记录来源。在AI技术迅速发展之际，数据对推动AI模型的进步至关重要，各相关企业对训练数据的需求更为迫切。YouTube因此成为科技公司锁定的目标。

据《纽约时报》报导，在2021年底就面临了训练数据短缺的难题。为了开发最新的人工智能系统，已耗尽网络上所有有信誉的英语文字库，然而为了训练其技术的下一个版本，显然还需要更多的数据。

为了克服数据短缺的难题，的研究人员开发出一款名为「Whisper」的语音识别工具，将超过100万小时的YouTube影片内容转化为文字，用于训练其先进的大型语言模型GPT-4。

《纽约时报》报导中指出，其实OpenAI的部分员工也讨论过这个做法可能违反YouTube 的规则。可是消息人士表示，尽管了解这样做在法律层面有问题，但OpenAI 团队最终仍转录了超过100万小时的YouTube 影片，而这个团队中还包括了OpenAI总裁Greg Brockman，他甚至亲自帮忙收集这些影片。

可是对于旗下的YouTube被OpenAI当作训练工具，Google并未出面制止，原因似乎与Google自身也同样藉由YouTube影片内容训练其人工智能模型有关。

YouTube执行长Neal Mohan日前曾在受访时表示，他没有直接证据能够证明OpenAI确实使用了YouTube的影片来训练其文字生成影片AI工具Sora，但同时也强调，如果OpenAI真的使用了，那就明显违反了YouTube平台的使用条款。

但《纽约时报》指出，为了在AI竞赛中抢先，搜寻推动技术所需的数字数据已成为重要课题，而为了取得这些数据，包括OpenAI、Google与脸书母公司 Meta 在内的科技公司纷纷选择走快捷方式，无视公司政策，甚至还讨论如何扭曲法规限制。