市场规模近千亿,云端AI芯片的市场需求不断增长

2022-11-01  

【导读】由于应用的多样性以及每个应用对功率和性能的高度特定的需求,设计 AIML 推理芯片正在成为一项巨大的挑战。简而言之,一种尺寸并不适合所有人,而且并非所有应用都能负担得起定制设计。例如,在零售店跟踪中,对于经过某个过道的顾客来说,允许有 5% 或 10% 的误差幅度是可以接受的,而在医疗诊断或汽车视觉中,准确度需要显著提高。但结果的准确性也会以功耗和性能以及设计复杂性为代价。再加上永远在线无停机时间、吞吐量、数据流和管理、延迟和可编程性。


在人工智能中,准确度是衡量答案正确的概率,定义为正确预测的数量除以预测的总数。例如,如果在 100 个样本中,正确预测了 85 个样本,则准确率为 85%。


Palo Alto Networks 的高级数据科学家 Venkatesh Pappakrishnan 认为,ML 算法几乎不可能达到 100% 的预测准确率。一般来说,准确率在 80% 到 85% 的良好 ML 算法更符合实际。实现接近 95% 的准确度需要付出巨大的努力、时间、更深入的领域知识以及额外的数据工程和收集。最有可能的是,可以发布一个达到 75% 到 85% 准确率的模型,然后再进行改进。


另一个关键指标是精度,它直接影响准确性。在实现推理解决方案时,开发人员使用 int(x) 格式来表示整数。对于边缘推理,它通常是 int8 或更低。Int1 表示 1 位整数,而 Int8 表示 8 位整数。位值越高,精度越高。一个简单的类比是照片中的像素数。像素越多,分辨率越高。在推理中,int8 将产生比 int4 更高的准确度。但它也需要更多的内存和更长的处理时间。在一项测试中,NVIDIA 证明 int4 精度与 int8 相比具有 59% 的加速。


Arm 物联网嵌入式、汽车和基础设施业务线的细分市场营销总监 Parag Beeraka 表示:“有广泛的准确性和精度要求,这一切都取决于用例。” “例如,如果 AIML 用于实时语言翻译,那么您确实需要具有更高的准确度和精确度才能使其易于理解。但如果将 AIML 用于对象识别用例,则所需的精度越高,AIML 模型映射到低功耗 AI 芯片的过程就越复杂。您可以通过牺牲一些精度和准确性来降低复杂性。这就是你看到很多使用 int8(8 位)格式的低功耗边缘 AI 芯片的原因,但你会看到很多更新的 ML 技术也支持更低(1 位,


那么何时何地进行这些权衡取决于应用程序和用例?


“准确性和精确度在很大程度上取决于系统级用例,”Cadence Tensilica AI DSP 产品营销总监 Suhas Mitra 说。“不同的指标用于确定某个应用程序可以容忍的准确度精度。例如,在低功耗边缘物联网设备上运行的图像分类与需要更高准确性的基于汽车自主的系统相比,可能能够容忍更低的准确性。所有这些不仅影响设计软件的方式,还影响硬件。


4.jpg


中国AI推理芯片加快弯道超车


AI芯片呈多场景专业化发展,互联网场景是我国Al芯片最大的应用市场。AI发展初期推理也采用GPU进行加速,但由于应用场景的特殊性,依据具体神经网络算法优化会带来更高的效率。在全球云端推理市场,GPU芯片的市场份额占比由2017年的60%降低到2022年30%,在云端推理芯片市场,我国企业已逐步突破海外垄断。


AI智能芯片分为训练芯片与推理芯片两大类,目前推理芯片市场规模相对较大,据宝利研究员预计,到2025年训练芯片市场规模为494亿元,而推理芯片市场规模将达到891亿元,未来五年推理芯片市场规模增速将远大于训练芯片,而GPU 芯片并不擅长推理任务,因此未来中国AI推理芯片的弯道超车机会显现。


如今在全球云端AI芯片市场领域,可以说是英伟达一家独大,在云端训练市场占比达到90%,在云端推理市场占比也高达60%。另外,国外的英特尔、AMD等厂商也在积极布局。


在国内,也有大批企业寻求在云端AI芯片方面不断突破,包括寒武纪、昆仑芯、燧原科技、天数智芯,以及瀚博半导体、沐曦集成、壁仞科技、摩尔线程、登临科技等。这里对这些企业及产品进展做了梳理,如下:


寒武纪


寒武纪成立于2016年,专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片。产品广泛应用于服务器厂商和产业公司,面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力,推动人工智能赋能产业升级。


寒武纪云端智能芯片产品,大致可以分为云端训练芯片和云端推理芯片,包括云端推理芯片思元270,主要面向云端训练的高端产品思元290,以及主要面向中高端训推场景的思元370。


思元290是寒武纪首颗AI训练芯片,采用创新性的MLUv02扩展架构,使用台积电7nm先进制程工艺制造,在一颗芯片上集成了高达460亿的晶体管。


思元370基于7nm制程工艺,是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。


思元370是国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。搭载MLU-Link多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。全新升级的Cambricon NeuWare软件栈,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。


思元370通过不同MLU-Die组合出了三款不同规格、符合不同场景需求的加速卡产品MLU370-S4、MLU370-X4、MLU370-X8。


2021年,寒武纪与阿里巴巴等头部互联网企业的多个业务部门进行了深入合作,云端产品思元370芯片及加速卡在视觉、语音、图文识别等场景的适配性能表现超出客户预期,部分场景已经进入小批量销售环节。在金融领域,寒武纪与多家头部银行进行了导入和适配。其中,MLU370-X4在招商银行多个业务场景的实测性能超过竞品,能够大幅提升客户的效率。


5.jpg


昆仑芯


昆仑芯于2021年4月完成了独立融资,前身是百度智能芯片及架构部,在实际业务场景中深耕AI加速领域已十余年,是一家在体系结构、芯片实现、软件系统和场景应用均有深厚积累的AI芯片企业。


昆仑芯1代芯片于2020年量产,昆仑芯2代于2021年8月18日宣布正式量产。2022年09月百度集团执行副总裁沈抖透露,昆仑芯3代将于2024年初量产。


昆仑芯1代芯片采用14nm工艺,256 TOPS@INT8算力,可用于云数据中心和智能边缘,支持全AI算法,落地超过两万片;昆仑芯2代芯片,搭载自研的第二代XPU架构,采用7nm制程,GDDR6高性能显存,算力256 TOPS@INT8,128 TFLOPS@FP16,相比一代性能提升2-3倍,适用于云、端、边等多场景,支持硬件虚拟化,芯片间互联和视频编解码。


昆仑芯 AI 芯片除了拥有自研 XPU 架构及多项自主设计,也已与飞腾等多款国产通用处理器、麒麟等多款国产操作系统以及百度自研的飞桨深度学习框架完成了端到端的适配,拥有软硬一体的全栈国产AI能力。


目前,昆仑芯科技已与智能产业的上下游企业建立了良好的合作生态,通过向不同行业提供以人工智能芯片为基础的算力产品,辐射互联网、智慧城市、智算中心、智慧工业、智慧应急、智慧交通、智慧金融等“智慧+”产业,以计算驱动智能,以智能促进发展。


燧原科技


燧原科技成立于2018年3月,专注人工智能领域云端算力产品,致力为人工智能产业发展交付普惠的基础设施解决方案,提供原始创新、全栈自研、具备完全自主知识产权的通用人工智能训练和推理产品。凭借其高算力、 高能效比以及灵活编程能力,可广泛应用于互联网、金融、交通、能源及新基建等多个行业和场景。


截至目前,燧原科技已经开发了两个产品线,一个是云端的训练,包括邃思1.0和邃思2.0,一个是推理芯片,邃思2.5。


邃思1.0基于可编程芯片的设计理念,其计算核心包含32个通用可扩展神经元处理器(SIP),每8个SIP组合成1个可扩展智能计算群(SIC)。SIC之间通过HBM实现高速互联,通过片上调度算法,数据在搬迁中完成计算,实现SIP利用率最大化。邃思支持CNN、RNN、LSTM、BERT等网络模型和丰富的数据类型(FP32  FP16  BF16  Int8  Int16  Int32等)。


邃思2.0基于GCU-CARA 2.0架构,以TF32为核心提供多数据精度AI算力支持,针对张量、矢量、标量等多计算范式提供领先性能,支持指令驱动、可编程的融合式数据流架构,提供软件透明、基于任务的智能调度;基于12nm FinFET先进工艺,单芯片包含225亿个晶体管,有效提升算力密度;广泛支持视觉、语音语义、强化学习等各技术方向的模型训练。


燧原科技创始人赵立东前不久表示,公司去年与浪潮科技,联合发布了钱塘江智算中心的解决方案,打造了一个液冷的160台服务器的算力集群,集成了180张燧原科技第一代的训练卡,现在已部署在之江实验室上线运行。


天数智芯


天数智芯2018年正式启动通用并行云端计算芯片设计,公司致力于开发云端服务器级的通用高性能计算芯片,以客户、市场为导向,瞄准以云计算、人工智能、数字化转型为代表的数据驱动技术市场,解决核心算力瓶颈问题,为全产业打造高端算力解决方案。


2021年3月,天数智芯正式发布通用GPU“天垓100”芯片及天垓100加速卡。天垓100芯片基于7nm工艺,采用全自研的架构、计算核、指令集及基础软件栈,2.5D CoWoS晶圆封装技术,包括240亿个晶体管。


天数智芯坚持自研通用GPU体系思路,天垓100适配x86、ARM、MIPS等架构CPU指令集,业界标准的软件API(应用程序编程接口)支持垂直类行业应用开发,支持TensorFlow、PyTorch等各种主流深度学习开发框架,以及软硬件全栈支持等,广泛应用于互联网、运营商、生物医疗、教育科研、智算中心等不同行业众多应用场景。


2022年4月,天数智芯宣布,目前天垓100产品累计订单金额已经接近2亿元,覆盖新华三等多个头部企业。而且,天垓100已支撑近百个客户在人工智能领域进行超过两百个不同种类模型训练。另外天数智芯首款7nm通用GPU推理产品智铠100也在今年5月份成功点亮。


瀚博半导体


瀚博半导体成立于2018年,专注于研发高性能通用加速芯片,为计算机视觉、智能视频处理、自然语言处理等应用场景,提供低延时、高吞吐的异构计算性能和高效的性能功耗比,芯片解决方案覆盖从云端到边缘的服务器及一体机市场。


2021年7月7日,瀚博半导体发布首款云端通用AI推理芯片SV100系列及VA1通用推理加速卡。SV100系列,深度学习推理性能指标数倍于现有主流数据中心GPU,超高吞吐量、超低延迟;针对各种深度学习推理负载而优化的通用架构,支持计算机视觉、视频处理、自然语言处理和搜索推荐等推理应用场景;集成高密度视频解码,广泛适用于云端与边缘解决方案,单芯片INT8峰值算力超过200TOPS,节省设备投资、降低运营成本。


在2022年世界人工智能大会期间,瀚博半导体又发布了四款新品:瀚博统一计算架构、全新数据中心AI推理卡载天VA10、边缘AI推理加速卡载天VE1、以及瀚博软件平台VastStream扩展版。此外,瀚博还预览展示国产7nm云端GPU芯片SG100,用于图像渲染、视频、元宇宙等领域,不过这款产品目前还未发布。


沐曦集成


沐曦集成成立于202年9月,公司致力于为异构计算提供安全可靠的高性能GPU芯片及解决方案,可广泛应用于人工智能、智慧城市、数据中心、云计算、自动驾驶、科学计算、数字孪生、元宇宙等前沿领域,为数字经济发展提供强大的算力支撑。


2022年1月,沐曦首款采用7nm工艺的异构GPU产品已正式流片,预计很快量产。该产品主要用于AI推理场景,可在人工智能、自动驾驶、工业和制造自动化、智慧城市、自然语言处理、边缘计算等领域应用。


沐曦第二款用于科学计算、数据中心弹性计算、AI训练等的旗舰GPU芯片也已进入研发收尾阶段,计划于2024年全面量产。此外,到2025年,沐曦将推出融合了图形渲染的完整GPU产品,也就是显示和游戏用途的GPU。


沐曦产品均采用完全自主研发的高性能GPU IP,拥有完全自主的指令集和架构,配以兼容主流GPU生态的完整软件栈(MACAMACA),具备高性能、高效能和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案。


壁仞科技


壁仞科技创立于2019年,致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案。


壁仞科技BR100系列通用GPU芯片,针对人工智能训练、推理,及科学计算等更广泛的通用计算场景开发,主要部署在大型数据中心,依托“壁立仞”原创架构,可提供高能效、高通用性的加速计算算力。目前,BR100系列拥有BR100、BR104两款芯片。


BR100系列采用7nm制程,并创新性应用Chiplet与2.5D CoWoS封装技术,兼顾高良率与高性能;支持PCIe 5.0接口技术与CXL通信协议,双向带宽最高达128 GBs;原创BLink高速GPU互连技术,单卡互连带宽最高达448 GBs,并支持单节点8卡全互连;除原生支持FP32、BF16、FP16、INT8等主流数据精度外,原创定义TF32+数据精度,相较TF32提供更高数据精度与吞吐性能。


摩尔线程


摩尔线程成立于2020年10月,专注于研发设计全功能GPU芯片及相关产品,支持3D高速图形渲染、AI训练推理加速、超高清视频编解码和高性能科学计算等多种组合工作负载,兼顾算力与算效,能够为中国科技生态合作伙伴提供强大的计算加速能力。


2022年3月30日,摩尔线程正式推出首款基于其先进架构MUSA统一系统架构(Moore Threads Unified System Architecture)打造的数据中心级多功能GPU产品MTT S2000,内置渲染、音视频编解码、人工智能加速和并行计算等硬件模块,能够提供图形图像渲染、视频云处理、AI和科学计算在内的全栈功能。


凭借其独特的渲染、虚拟化等能力和广泛的生态支持,MTT S2000可以在云桌面、安卓云游戏、视频云、云渲染和AI推理计算加速等应用场景全面助力绿色数字经济发展。


摩尔线程MTT S2000兼容X86、ARM等CPU架构以及主流Linux操作系统发行版,并已着手与多家服务器合作伙伴开展合作,包括浪潮、新华三、联想、清华同方、长城超云、思腾合力等OEM厂商多款通用服务器及GPU服务器型号,可以在众多硬件和应用环境中完成部署。


得益于丰富的模型库支持和先进硬件设计,MTT S2000能够满足计算机视觉、自然语言处理等多种智能应用场景的模型训练和推理应用,并对包括DBNet、CRNN、FastRCNN、Yolo V2V3V5、PSENet、Mask RCNN、Resnet 50101、Inception、Vgg、Alexnet、Densenet、Unet等在内的众多主流深度学习算法提供支持。


同时,MTT S2000也支持用户使用PyTorch、TensorFlow、PaddlePaddle等深度学习框架进行算法开发及应用搭建。此外,用户也可通过应用更广泛的OpenCL及CUDA环境进行开发,大幅降低了新硬件的学习及应用门槛,提升开发速度。


登临科技


登临科技成立于2017年,专注于高性能通用计算平台的芯片研发与技术创新,致力于打造云边端一体、软硬件协同、训练推理融合的前沿芯片产品和平台化基础系统软件。


公司自主创新的GPU+,在兼容CUDAOpenCL在内的编程模型和软件生态的基础上,通过架构创新,完美解决了通用性和高效率的双重难题。大量客户产品实测证明,针对AI计算,GPU+相比传统GPU在性能尤其是能效上有显著提升。


2022年9月,登临科技创始人李建文在某会议上表示,登临科技首款系列产品基于GPU+的创新AI加速器Goldwasser已在智慧城市、交通、金融、能源、电力、教育、无人驾驶、互联网等众多行业实现商业化落地,目标年内客户订单达数万片,并且已实现批量量产交付。登临第二代产品将于明年上半年进入市场,其能效比将是第一代产品的2倍。


另外,登临科技还发布了完整的翰铭(Hamming)软件工具链,该工具链支持国内外主流AI框架、操作系统、CPU、容器与虚拟机、以及推理服务器,可帮助客户尽快把算法部署到实际业务上,并帮助云端与数据中心的客户更好地利用硬件资源。


来源:贤集网



免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理。


推荐阅读:


文章来源于:电子元件技术    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。