进入到2024年后,AI的热度没有丝毫下滑迹象,反倒愈发火热。2月16日,发布了文生视频工具,成功复制了又一个ChatGPT时刻,震撼了科技产业,引爆社交平台热议。根据官网的介绍,是一个通用的视觉数据模型,生成的视频可包含复杂的角色、特定的移动类型,以及主体和背景细节。
本文引用地址:到底是什么?
目前,Sora能够根据用户输入的提示词、文本指令或静态图像,生成长达60s的视频,远超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4秒)等AI视频应用生成时长,在视频效果及稳定性等指标上表现也更加优异。
Sora呈现良好的多模态能力,不仅支持文本生成视频,还具备图像生成视频等能力,另外视频可以往前/向后扩展,如果你对视频的局部(比如背景)不满意,也可以直接更换。虽然Sora尚未对公众开放,从已经公布的生成的视频案例来看,其中既能实现多角度镜头的自然切换,还包含复杂的场景和生动的角色表情,且故事的逻辑性和连贯性极佳。
Sora具有三大突出亮点:一是60秒长视频,可以保持视频主体与背景的高度流畅性与稳定性;二是在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅;三是理解真实世界的能力,对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。
除了是视频生成工具,「世界模拟器」也是Sora的重要标签,毕竟Sora技术报告的标题就是“作为世界模拟器的视觉生成模型”。在关于Sora的详细技术报告中表示,Sora对自然语言的理解能力很强。OpenAI将其视为能够理解和模拟现实世界的模型的基础,相信其能力是实现AGI的重要里程碑。
AGI即Artificial General Intelligence,又称通用人工智能,是指能够完全模仿人类情感、行为,实现自我学习、自我改进、自我修正的智能计算机系统。AGI最大的特点在于对真实世界的规则,尤其是物理状态、自然规律、化学变化等等因素的反馈。尽管Sora当前只展示了其在视频,又或是内容创作上的能力,但其对于真实世界的理解已经展现出强悍的实力。
AI视频生成的难点在于视频是连续的多帧图像,并且要有逻辑性,并非简单的图片组合。Sora令人惊叹的地方是在于其生成的视频是通过程序架构、通过不断地训练而来的:据OpenAI科学家提姆·布鲁克斯透露,没通过人类预先设定,Sora就自己通过“观察”大量数据,自然而然地学会了关于3D几何形状和一致性的知识,其生成的虚拟视频是符合现实世界物理规律的。
尽管Sora距离世界模型还有很长距离,并不意味着它已经‘读懂’了物理规律,究竟是模型建立了真实世界的法则,还是解码能力强大?不过肯定的是它证明了一点,即机器可以通过“投喂数据”推算出一些物理世界的规则。毫无疑问,Sora是机器模拟现实世界的一个里程碑。
Sora模型的技术路线
从ChatGPT到Sora,反映了真实理解、反映和模拟物理世界的巨大能力,也让我们看到了这种巨大的可能性。OpenAI官网公布的Sora技术报告显示,Sora的核心技术是Diffusion Transformer架构,基于该构架从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。
2022年,Diffusion Transformer架构由Sora模型的主要作者Bill Peebles提出,他将Transformer结构替代了Diffusion模型中常用的U-Net结构;同时,受到训练大语言模型的Token(文本单元)启发,引入了Patch(视觉块嵌入代码)的概念,它能对像素、尺寸等各不相同的视频进行编码,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定了基础。
从技术路线来看,Diffusion架构是用于文生视频的标准算法框架,已在业内达成共识。Sora“惊艳”之处在于为图像视频等多模态数据找到了适合Transformer架构的表征方式,从而将ScalingLaw从语言模型复制到了图像视频模型。此外,Sora能更好地理解用户给的提示词,借助DALL·E3的re-captioning功能,给训练用的视频素材都加上了高质量文本描述,在推理时借助了GPT对用户输入进行扩展,可谓“站在巨人肩膀上”更进一步。
尽管OpenAI在Sora的技术文档中并未公开所有模型细节,但我们可以通过其描述大致推测出,Sora的实现仍然依赖于OpenAI在大语言模型领域取得巨大成功的“大力出奇迹”思想,即通过大幅提升训练数据和参数规模实现视频精度和对现实世界物理关系的“涌现”。
Sora面临的问题
Sora模型目前还处于测试阶段,预计再经过一段时间的安全测试和用户反馈后才会正式提供服务,因此还无法了解Sora模型的实际效果。不过,OpenAI没有刻意回避Sora模型生成错误内容的情况。在OpenAI发布的技术报告中有一段Sora模型生成的错误视频,展示了桌上的水杯会先从底部流出果汁,然后沿着错误的方向和角度倒在桌上。
值得注意的是,Sora代表的AGI“世界模拟器”要运转,离不开算力基础设施。每一个深度学习的人工智能模型,都离不开背后强大算力的支持,Sora亦是如此。OpenAI CEO Altman曾公开表示,其工作与产品仍需更多算力提供帮助,目前公司所使用的还远远不够。
而视频生成推理需要更大的VRAM或带宽,如果Sora开放使用后如期推动各类视频创作的繁荣,当前电信和数通网络的带宽都需要大幅升级。作为广义算力的一部分,网络设备的需求也将爆发式增长。
AI技术的复杂性意味着需要大量金钱和算力资源投入。据媒体报道,OpenAI首席执行官山姆·奥特曼正与投资者洽谈,筹集资金用于研发,具体数目可能高达5万亿至7万亿美元。目前,OpenAI已展开自有芯片布局,路透社就曾报道OpenAI已经参与投资至少三家半导体设计公司,其中Cerebras更是一家初创型企业。
当然,我们也不能忽视Sora潜在的问题和风险。一方面,“文生视频”模型需要海量的训练数据来进行学习,这就会带来版权问题;另一方面,和所有其他人工智能工具一样,Sora过于逼真的视频表现也会带来对于伪造和传播虚假内容的忧虑。如何在未来的实践中保证数据安全、规避风险,确实值得关注。
针对业界的担忧,美国联邦贸易委员会(FTC)2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示,它正在提议修改一项已经禁止冒充企业或政府机构的规则,将保护范围扩大到所有个人。OpenAI内部仍在开展模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容、色情暴力内容等,会在文本输入时被拒绝。
新生事物的发展过程难免会遭遇波折、迂回,但不会停下前行的脚步。近两年,由于人工智能技术的迅猛发展,世界各国以及许多知名企业不约而同地加大了对相关产业的投入。据估计,2026年全球生成式人工智能的市场规模将到981亿美元,无论是对Sora还是对其他人工智能工具来说,未来都可能给人类世界带来更多惊喜和颠覆性的变革。
OpenAI迫不及待地推出仍在开发中的不完美模型,更像是用一出大型广告秀吸引更多融资的高招。因此,现阶段不必过于高估“文生视频”模型为行业以及世界带来的影响。Sora作为生成式AI模型的一颗“新星”,仍存在一些不成熟之处,比如逻辑性还有待提升,在更精细内容的调控方面有待加强。但它的出现,已经给大众带来了一定的想象空间。
技术浪潮下的文化产业,重塑与变革必然势不可当,正如蒸汽机、发电机等机器工具的发明和普及,让手工劳动被自动化机器代替。生成式AI所蕴含的深层次、革命性力量是不容低估的,与其揣着“饭碗焦虑”,我们不如将之视为工作的“搭子”。换言之,无论是ChatGPT还是Sora,技术进步更重要的意义在于让更多人可以不被简单重复的劳动所束缚,与AI成为工作“搭子”,从而去创造更大价值。