为对抗英伟达，英特尔拿出全新技术，AI算力不再一家独大

【导读】AI，人工智能，这个东西其实一旦都不新鲜。从早些年的科幻作品，到后来的逐步落地，从1997年IBM超级电脑“深蓝”击败国际象棋大师卡斯帕罗夫，到2016年Google AlphaGo战胜围棋冠军李世石，AI一直都在进步，也一直在演化。

但因为算力算法、技术能力、应用场景等方面的种种限制，AI一直有些空中楼阁的感觉。

直到出现了ChatGPT，AI才真正引燃了普通人的热情，让我们发现，AI竟然如此强大，又如此唾手可得，让众多个体、企业为之兴奋，为之癫狂。

Intel祭出全新“杀器”

AI无论实现方式还是应用场景都是多种多样的，既有云侧的，也有端侧的。

NVIDIA的重点在云侧和生成式AI，Intel在云侧生成式、端侧判定式同时出击，而随着越来越多的AI跑在端侧，更贴近普通用户日常体验，所带来的提升越来越明显，Intel更是大有可为。

端侧AI，说起来大家可能会感觉很陌生，但其实，人们习以为常的背景模糊、视觉美颜、声音美化(音频降噪)、视频降噪、图像分割等等，都是端侧AI的典型应用场景，背后都是AI在努力。

这些应用要想获得更好的效果，就需要更完善、复杂的网络模型，对于算力的需求自然也在快速增长。比如噪音抑制，算力需求已经是两年前的50倍，背景分割也增长了10倍以上。更不要说生成式AI模型出现后，对算力的渴求更是飞跃式的，直接就是数量级的提升，无论是Stable Diffusion，还是语言类GTP，模型参数都是非常夸张的。

比如GPT3的参数量达到了1750亿左右，相比GPT2增加了几乎500倍，GPT4估计可达到万亿级别。

这些都对硬件、算法提出了更苛刻的要求。

Intel自然也早就开始关注并投入AI，无论是服务器级的至强，还是消费级的酷睿，都在以各种方式参与AI，“XX代智能酷睿处理器”的说法就在很大程度上源于AI。在Intel看来，没有单一的硬件架构适用于所有的AI场景，不同硬件各有特点，有的算力强大，有的延迟超低，有的全能，有的专攻。

AI作为基础设施也有各种各样的场景应用和需求，负载、延迟都各不相同，比如实时语音和图像处理不需要太强的算力，但是对延迟很敏感。这时候，Intel XPU战略就有着相当针对性的特殊优势，其中CPU适合对延迟敏感的轻量级AI处理，GPU适合重负载、高并行的AI应用。Intel另一个无可比拟的优势就是稳固、庞大的x86生态，无论应用还是开发，都有着广泛的群众基础。

现在，Intel又有了VPU。

将在今年晚些时候发布的Meteor Lake，会首次集成独立的VPU单元，而且是所有型号标配，可以更高效地执行特定AI运算。

Intel VPU单元的技术源头来自Intel 2017年收购的AI初创企业Movidius，其设计的VPU架构是革命性的，只需要1.5W功耗就能实现4TOPS的强大算力，能效比简直逆天，最早用于无人机避障等，如今又走入了处理器之中，与CPU、GPU协同发力。

VPU本质上是专为AI设计的一套新架构，可以高效地执行一些矩阵运算，尤为擅长稀疏化处理，其超低的功耗、超高的能效非常适合一些需要长期打开并执行的场景，比如视频会议的背景虚化、移除，比如流媒体的手势控制。

之所以在已经有了CPU、GPU的情况下，还要做一个VPU，Intel的出发点是如今很多端侧应用是在笔记本上进行，对于电池续航非常敏感，高能效的VPU用在移动端就恰如其分。

另一个因素是CPU、GPU作为通用计算平台，本身就任务繁重，再给它们增加大量AI负载，执行效率就会大打折扣。

具体到应用场景，VPU也是非常广泛的，比如说视频会议，现在的CPU AI已经可以实现自动构图(Auto-Framing)、眼球跟踪、虚拟头像/人像、姿势识别等等。加入低功耗、高算力的VPU之后，还可以强化背景模糊、动态降噪等处理，让效果更加精准，比如说背景中的物体该模糊的一律模糊、人手/头发等不该模糊的不再模糊。有了高效的硬件、合适的场景，还需要同样高效的软件，才能释放全部实力、实现最佳效果，这对于拥有上万名软件研发人员的Intel来说，真不是事儿。

Meteor Lake还没有正式发布，Intel已经与众多生态伙伴在VPU方面展开了合作适配，独立软件开发商们也非常积极。

英伟达超级芯片已经量产

在最近的Computex展会上，NVIDIA的创始人兼首席执行官黄仁勋正式宣布旗下首款超级芯片GH200 Grace Hopper已经开始全面量产。这款超级芯片集成了NVIDIA首款Grace CPU和Hopper GPU，标志着NVIDIA兑现了此前的豪言壮志。

GH200 Grace Hopper的推出是为了满足当下快速增长的AI生成需求。Grace CPU采用了AMR架构，拥有72个ARMv9内核和117MB L3缓存。它还配备了512GB的LPDDR5X内存，内存带宽高达546GB/s。而Hopper GPU则搭载了144个SM单元和96GB HBM3显存，总计拥有18432个CUDA核心，L2缓存为60MB。这两个组件通过专属的NVLink交换系统相互结合，形成了Grace Hopper超级芯片。

令人惊叹的是，GH200 Grace Hopper的计算能力达到了一百万万亿次，相当于4090的12195倍。这使得它与当前最先进的超级计算机媲美，甚至超越了它们。然而，NVIDIA并没有止步于此。

黄仁勋随即公布了名为DGX GH200的AI超级计算机，它由256颗Grace Hopper超级芯片构成。这款超级计算机不仅大幅提升了带宽，达到了前一代产品的48倍以上，而且还引人瞩目地提供了共享内存容量高达144TB。据NVIDIA称，DGX GH200的计算能力将超过1EB，这个计算能力超过了当前全球排名第一的超级计算机Frontier，后者的计算能力只略高于1EB。

量子计算是个好解法，但为时尚早

大模型算力之争，短期看GPU自研，中期看存算、Chiplet，那么被投资人视为新计算方向的量子计算在其中又能扮演什么角色？

事实上，VC对量子计算的关注不只限于此次ChatGPT的热潮，AR/VR、5G等新应用场景的不断涌现，以及各类型的应用场景爆发式增长，让市场对算力的需求水涨船高，产业亟待挖掘具有颠覆性的计算形式。

量子计算作为一种新型架构的计算，可以实现指数级算力提升，更可谓是不得不关注的焦点。

据企查查数据显示，2017年至今，国内量子计算赛道共完成31起融资事件，公开披露融资金额超25亿元，融资主要发生在2021年及以后，占比近7成。其中图灵量子、本源量子、量旋科技、玻色量子、国仪量子等在近年获多轮融资。

对于这一疑问，量旋科技CEO项金根对量子计算跟经典计算机的算力差距，给出了飞机和地面交通工具的比喻。

他表示，当下存算、光芯片、其他一些封装的改进技术，本质上还是经典计算机的范畴，它运算的原理跟GPU本质上没有太大改变，更多是在传统的框架下做的一些改进，使得人工智能的芯片效率更高。

对于现有的AI芯片、存算一体或其他封装技术对AI算力的提升，项金根表示认可，同时他也认为需要不同维度去看不同解决方案对算力的助力，这里面不一定存在最优解。

“未来，量子计算机肯定能够助力人工智能。AI需要的算力会越来越多，到 2030 年左右可能不光是算力，连耗电量都是非常恐怖的数据级。所以要真正解决AI大规模的算力需求，量子计算机是一个很有潜力的应用方向，而且量子计算机的运算模式跟人工智能有天然的贴合性，量子计算机可以加速AI的一些应用场景，而AI亦可以加速量子计算的研发，优化其操控精度。”

那么，如此具有革命性的量子计算何时能应用到AI领域？项金根认为，到2030年行业发展顺利进入容错量子计算阶段，将可能是一个落地的时间点。

相较于项金根给出的10年之约，俞悦认为量子计算相关算法在一些行业特定任务上的尝试落地，在这个时间点可能会有一些结果，至于解决AI的通用任务上，他则相对保守地给出了“50年”的看法。甚至投了图灵量子的联想创投也表示，量子计算从产业化的角度看，仍挑战诸多，充满机遇。

联想创投坦言，量子计算落地需要解决百万量子比特操纵能力、低环境要求、高集成度等核心问题，具有较高的入局门槛，其产业化仍面临技术路径不确定、人才储备稀缺、产业链配套早期以及无法用传统的逻辑、电路思维进行推导和复刻的四大痛点。

如此看来，这些问题待解之下，量子计算就略微显得理想丰满、现实骨感。

此外，俞悦还指出，从逻辑上说，量子计算肯定能解决很多算力问题，但即便如此，还需要结合成本，才能知道量子计算是不是一个从投入产出看的最佳方案。

在俞悦看来，眼下量子计算行业还未发生一些根本性的变化进展，中短期与其寄希望于其他方案来解决大模型所遇到的算力问题，不如指望GPU这些经典计算的硬件价格能下来。

“解决算力的成本肯定会越来越便宜，GPU价格对于大模型玩家来说只是暂时的，终究不会对AI发展构成太大瓶颈。而其他方案的成熟还需要很多配套的软件生态匹配，相对来说更是一个非常长周期的事情。”

来源：贤集网

免责声明：本文为转载文章，转载此文目的在于传递更多信息，版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题，请联系小编进行处理。