低延迟的互动直播、连续上划的短视频、1080p的电影电视剧……在超高清视频轻而易得的当下,我们对于低清、卡顿视频的忍耐度越来越低。 据《2022年中国网络视听发展研究报告》披露,截至2021年12月,我国网络视频(含短视频)用户规模达9.75亿,较2020年12月增长4794万,占网民整体的94.5%。 这背后,是存储、带宽和算力成本的叠加压力。 如果你在看一部超高清电影时,想要追求极致的视听体验,那么,视频背后则需要16倍的算力,12倍的存储和10倍的带宽。 如果是100个人同时观看呢? 这时,我们急需一套成本低廉、压缩率高且有一定增强能力的实时直播媒体处理平台,以及它背后的王牌——编解码处理方案。
1
鱼和熊掌,可以兼得
根据声网的数据分析,高清画质相比标清画质,频道内用户留存时长高10.3%。高清画面能让观众更愿意在平台上停留,增强用户粘性。 可高清视频不是说做就能做的,这背后的成本压力不容小觑。为了应对视频流量的不断增长,视频标准组织一直在推动视频编码技术的持续迭代。从MPEG2开始,视频编码标准压缩率大约每10年提升50%,以2021年推出的H.266为例:相对于H.265压缩率提升50%,但其编码计算成本提升15倍。 此时,面对10倍以上的新一代编码成本,传统的CPU能力已经难以应对,摩尔定律的连带效应也让其难以迸发出高性能的能力。既然CPU无法做到,那么采用GPU和AI借力呢?
根据相关企业的公开财报,视频转码和带宽的成本已经占据公司全年收入的10%。
AI的确是一个不错的帮手。这是一套完整的视频转码推流的流程图,我们可以看到,在整个红色框线的过程中,AI已经完全可以接管内容审核、理解、编辑和转码的工作。但在给视频编解码带来画质提升的同时,AI所需的算力成本也不容小觑。 而GPU高昂的成本是令人望而生畏的,企业不敢一次性囤积大量GPU卡,更别提GPU转码无法做到和CPU一样的高压缩率。 面对以上的需求痛点,原有的单一CPU或GPU架构形态已经无法完全满足。两者相对比,并没有一个明显的赢家。 那么问题来了,是否有一种方法可以在不提升成本的同时,将二者结合起来呢? 还真的有。 我们都知道,视频编码的硬件平台百花齐放,其中包括了CPU、GPU、专有芯片甚至FPGA……但对于视频转码来说(尤其是对访问量大的热数据转码),CPU仍然是第一选择,正是因为CPU有两个不可替代的优势:1.高灵活性;2.高复用性。 那么,如果将AI嵌入到转码中,是否可以在CPU上实现整条转码方案呢? 在今年年初发布的英特尔第四代至强可扩展处理器中,英特尔进行了一次重大革新:通过内置数个硬件加速器应用于不同场景的性能加速。其中,AMX的AI加速彻底填补了CPU编码中空缺的一块,构建了全链路智能化编码。
在英特尔的第四代至强上,每一个物理核心上都有这样的一个内置的AMX加速单元。 所以,谁说鱼和熊掌不能兼得呢?
2
连续四年蝉联第一,腾讯云怎么做到的?
正所谓实践出真知,腾讯云的至强实践之路就是一个很好的例子。 随着4k/8k视频逐渐走入千家万户,消费者们的观看习惯逐渐向高清、超高清迈步。作为高清视频领先的服务商,腾讯云的选择就变得十分重要。
在技术选型方面,正是CPU不可替代的优点让腾讯云决定摒弃硬件方案的选型,转为纯CPU编码器的处理。那么,第四代至强是如何助力腾讯云4k/8k超高清解码的?
从降本谈起 超分、算力与升级 前文提到,CPU的高灵活性使得CPU的升级几乎没有成本,纯CPU编码器可以通过算法设计达到比硬件方案更高的压缩率,同时软件方案的升级更加方便。如:原硬件芯片支持8K265编码,后续若想要升级支持266编码,对于硬件来说需要重新设计,软件则只需要进行代码升级即可,系统可以持续迭代支持最新的能力。 纯CPU方案使用的是通用算力,当不进行8K转码的时候,可以很方便的释放这部分资源进行通用CPU算力利用。在进行4k/8k编码时,通过全链路智能化编码可以使得开发者可以专注于算法创新,而不用考虑如何部署等细节,开箱即用。
流程合并,降低运维成本:由于超分部分算力要求非常高,需要通过GPU来辅助,但这样也会出现一些问题:将高要求的AI负载迁移到GPU上,会导致编码和前处理完全分离。这就像在一间屋子里解码——发送到另一间屋子进行前处理——再转回来编码。不仅让流程变得冗长,也对运维造成了极大的负担,数据的反复调度也造成了一定的时延的增加。CPU全链路智能化编码将该部分编入CPU中,成功降低了运维成本。
因为软件的灵活性,腾讯云的8K实时转码系统能够支持所有主流视频编解码标准。在2021年MSU O264、V265以及2022和2023的MSU H.264、H.265和AV1中,腾讯云都遥遥领先。 精细化控制 AMX、INC(Intel N)和精度
BF16和INT8的高算力对将AI从GPU迁到CPU之上确实有很大的帮助,但如何保证精度呢?Intel Neural Compressor (INC) 内置了专门用于精度的校正算法。作为开发者,只需要做三件事:输入模型、输入数据集和输入精度要求即可。
除此以外,在前处理过程中,第四代至强通过智能化编码对CPU做核心绑定,将整体转码流程精细化控制。比如,解码、添加水印、转分辨率、编码等等操作都分配到指定CPU上进行,尽量保证相互依赖的操作都在同一个CPU。 AI推理能力大幅提升:画质增强等视频前处理需要强大的算力支持。这是英特尔和腾讯云的实际案例。在视频增强和目标检测这两个场景下,使用了第四代至强AMX优化的AI推理性能相对上一代平台分别提升了1.86和1.95倍。
与此同时,精度损失被控制在可接受的范围,这也使得用户在CPU上实现了全链路智能化编码,大幅降低了部署成本和运维成本。
3
“芯”启智变,携手共建
人眼永远渴望最清晰、最真实的图像和视频,人们对清晰度的追求也是永无止境的。无论人工智能带给科技进步的速率有多快,数字化与云计算都应是企业应对持续变化的必备解决方案。 在9月7日2023腾讯全球数字生态大会上,英特尔将作为深度合作伙伴举办主题为“芯”启智变,携手共建的专场分论坛。(时间:14:30 地点:1F CC105C) 在英特尔分论坛中,您可以了解到英特尔与腾讯携手共创二十余年来,在人工智能、大数据、科学计算、音视频等方面全方位深度合作的多项新成果,以及构建高能效、高可靠、易扩展的新一代信息技术智能基础设施,助推数字经济和实体经济深度融合的最新进展。
同时,英特尔还将分享其最新的产品及技术蓝图,包括在第四代英特尔 至强 可扩展处理器和Hanana Gaudi2等先进硬件和优化软件支持下的英特尔AI大模型解决方案,以及英特尔云边一体的智能网络解决方案。 此外,在本次大会中,英特尔也将设置专场展区,通过云及AI产品解决方案、云到端解决方案、会议室解决方案及边缘产品解决方案4大区域,共计展出15个先进方案。 站在产业数字化全新的里程碑上,如何看待人工智能、云计算、大数据带给未来的无限想象?
相关文章