截止到2022年,中国互联网视频用户规模达到了9亿人;IDC(中国互联网数据中心)预计,2025年全球数据空间中80.3%将是以视频、图片、音频为代表的非结构化数据,音视频的高效处理越来越重要。
短视频和直播的兴起拓展出了新的业态,视频直播、智能化内容生成、视频推荐等应用越来越丰富,给视频云业务带来了巨大的发展机遇,同时也对云服务架构提出了新的挑战,其中涉及高并发、分布式存储、音视频编解码以及边缘计算等多项技术。
年轻的架构师对架构设计、技术选型经常充满疑惑,由Science与英特尔联袂推出的“架构师成长计划”第二季系列课程正是针对这类需求量身定做,精心挑选了音视频、云游戏、5G核心网、算力网络、联邦学习、生信大数据等十大热门话题,为架构师群体提供优质学习资源和实操经验分享。
为帮助音视频行业的架构技术人答疑解难,“架构师成长计划”第一期特邀火山引擎总经理谭待、英特尔大数据高级首席工程师程从超、智源人工智能研究院副院长刘江共同探讨《超视频时代音视频架构建设与演进》。
火山引擎:超视频时代音视频架构
首发讲师谭待结合火山引擎的具体实践,针对视频云备受关注的技术方向:边缘计算、音视频编解码、智能中台等技术的应用,介绍超视频时代的音视频架构演进。课程共分三部分:
第一部分:什么是超视频时代
2020年,疫情爆发,各行各业或主动或被动地与视频开始接触,视频云渗透到更多“传统”行业,在工业、教育、医疗等行业不断涌现更多落地场景,这些场景对音视频架构带来功能、性能和安全层面的不同挑战,视频云来到了超视频时代。
第二部分:字节跳动音视频业务架构设计
边缘端最接近业务场景,首先优选全国各省市丰富的边缘资源和运营商网络,并按地理层级部署优质的单线、多线和BGP的节点,结合多种架构的硬件设备,如:X86、ARM服务器、智能网卡、GPU等,实现面向异构算力的边缘基础底座,构建从1ms到40ms的广域网络接入和边缘数据处理能力。基于边缘基础设施底座构建了云原生边缘平台,灵活管理异构的计算和网络资源,实现边缘一张网调度。
为了降低超大规模、实时处理对中心架构的挑战,通过基于ROI的视频编码理念,来架构对应的计算与存储架构,这不仅取得带宽成本的收益,在用户指标方面,包括平均时长等也有显著的提升。通过自研多场景数据集、眼动仪采集ROI,然后在CPU上使用mobilenet加速时域建模,GPU上并行处理,实现了>90%的准确率,视频压缩性能也显著提升。
通过数据驱动优化体验,建立完整的QoS、QoE数据体系,并进行不断优化,以数据驱动技术再进化。从数据的采集、挖掘、模型的训练到策略的下发,到串联AB实验平台反馈全部打通,在不同用户、不同场景中能够把优化做到个性化、精细化、性价比最大化。
第三部分:视频云未来演进趋势及需要怎么样的视频技术
面向超视频时代,视频云技术应更好满足用户沉浸式、交互性、高清化的极致视频体验。讲师结合今年北京冬奥会上大规模的8K超高清转播,提出视频编码和传输始终是巨大挑战,需要顶尖的视频压缩能力,火山引擎的端云一体H.266视频编码方案,节省了30%-50%的码率,为超高清视频铺平道路。
英特尔分享:
软硬一体的端到端视频优化
英特尔大数据高级首席工程师程从超,在第一期课程中为大家带来了“软硬一体的端到端视频优化方案”。
重点从输入到输出,从软件到硬件,从内容生产、存储、计算和分发等多个环节,解读了英特尔视频云的全栈优化方案。
在视频编解码方面,英特尔自研了基于CPU处理器的编解码组件Scalable Video Technology(SVT),SVT技术实现了一张图的分块并行、图与图之间的并行、视频的多个帧之间的并行,通过几层的并行把整个CPU的所有核心都充分利用起来,在每个核心里面又通过AVX-512和SIMD指令集的优化,在一个CPU的指令周期内做更多的处理,最终实现2-20倍的视频编解码性能提升。
SVT具有高度可扩展的核心架构,全面实现SIMD/AVX-512指令集的优化,基于Intel Xeon CPU平台实现更优的线程和进程并发,充分利用多核功能,达到视频转码速度、视频质量、传输速度的最佳权衡。
类似SVT这样的软件层优化及底层基础设施XPU的接口封装好之后,根据负载的不同,可以通过OneAPI来调用底层不同的处理单元,数据具体在哪里执行,可以自动地感知并调度,充分利用云端、边缘端、终端的处理能力,实现编解码、推理、渲染等环节的效率最大化。
大咖对话:
视频云架构如何平衡软硬件投入
交流碰撞火花,沟通启迪灵感。本期圆桌对话中,智源人工智能研究院副院长刘江、讲师谭待、讲师程从超三位大咖围绕“超视频时代音视频架构建设与演进”,进行了深入的切磋和讨论。
刘江:在直播和短视频时代,火山引擎如何通过AI、云等技术去提升应用体验?
谭待:在全球整合丰富的边缘节点和网络资源,不管是传统的音视频应用,还是新的边缘计算场景,都能快速得到响应,具体到音视频,通过高效的编解码技术去实现性能和体验的平衡;并且建立了一套基于QoS和QoE的指标体系,用数据驱动持续提升用户体验。
刘江:当处理器算力达到瓶颈时,如何提升音视频的处理效率?英特尔在音视频方面有哪些解决方案?
程从超:英特尔做了很多“软硬一体”的行业解决方案。简单来讲概括为三大块——硬件方面,增速度降成本,未来的云端算力一定是XPU(多重处理单元)的解决方案,CPU、GPU、IPU多种组合在一起,实现更灵活的分布式算力;DPDK、SPDK对网络传输实现了很大优化;软件方面,英特尔一直致力于贡献开源社区,我们做upstream/downstream,尽量使能开源社区。在行业层面,与合作伙伴一起做行业解决方案。
XPU作为重要的云端算力,在深度学习推理方面有哪些新的突破?视频推荐技术的架构怎样建设,如何支持亿级的视频内容理解和分发?硬件迭代周期比软件要长,作为架构师应该如何平衡软硬件的资源投入,实现最高的性价比?