以聊天机器人ChatGPT一炮而红的人工智能公司Open,去年发布功能更强大的GPT-4,成为领域的衡量标竿。而这样快速的进步或许靠的正是影片的「帮忙」。据《纽约时报》报导,Open利用AI版权法的模糊地带,转录了超过100万小时的影片,用于训练其先进大型语言模型GPT-4。
本文引用地址:是网络上最大且最丰富的图像、音频与文字记录来源。在AI技术迅速发展之际,数据对推动AI模型的进步至关重要,各相关企业对训练数据的需求更为迫切。YouTube因此成为科技公司锁定的目标。
据《纽约时报》报导,在2021年底就面临了训练数据短缺的难题。为了开发最新的人工智能系统,已耗尽网络上所有有信誉的英语文字库,然而为了训练其技术的下一个版本,显然还需要更多的数据。
为了克服数据短缺的难题,的研究人员开发出一款名为「Whisper」的语音识别工具,将超过100万小时的YouTube影片内容转化为文字,用于训练其先进的大型语言模型GPT-4。
《纽约时报》报导中指出,其实OpenAI的部分员工也讨论过这个做法可能违反YouTube 的规则。可是消息人士表示,尽管了解这样做在法律层面有问题,但OpenAI 团队最终仍转录了超过100万小时的YouTube 影片,而这个团队中还包括了OpenAI总裁Greg Brockman,他甚至亲自帮忙收集这些影片。
可是对于旗下的YouTube被OpenAI当作训练工具,Google并未出面制止,原因似乎与Google自身也同样藉由YouTube影片内容训练其人工智能模型有关。
YouTube执行长Neal Mohan日前曾在受访时表示,他没有直接证据能够证明OpenAI确实使用了YouTube的影片来训练其文字生成影片AI工具Sora,但同时也强调,如果OpenAI真的使用了,那就明显违反了YouTube平台的使用条款。
但《纽约时报》指出,为了在AI竞赛中抢先,搜寻推动技术所需的数字数据已成为重要课题,而为了取得这些数据,包括OpenAI、Google与脸书母公司 Meta 在内的科技公司纷纷选择走快捷方式,无视公司政策,甚至还讨论如何扭曲法规限制。