GPU赛道上刮起浓浓的中国风，谁能成为中国版的NVIDIA？

【导读】根据技术市场研究机构Jon Peddie Research的一份新报告，中国的GPU初创企业数量非同寻常，因为该国试图获得人工智能的优势以及半导体主权。

随着人工智能（AI）、高性能计算（HPC）和图形处理的需求以前所未有的速度增长，近年来全球GPU制造商的数量也在增长。谈到个人电脑的独立显卡，AMD和Nvidia保持领先，而英特尔正在努力追赶。

在上世纪八九十年代，全球一度有多达数十家公司在开发了显卡和独立图形处理器，但为了在3D游戏中获得最高性能而进行的残酷竞争，其中绝大多数公司被淘汰。

到大约2010年时，只有AMD和Nvidia能够为游戏和计算提供有竞争力的独立GPU，而其他公司则专注于集成GPU或GPU IP。

从2015年左右开始，中国的PC GPU开发商数量开始迅速增加，这得益于中国对技术自给自足的推动，以及AI和高性能计算作为高科技大趋势的出现。

根据Jon Peddie Research的数据，目前总共有18家公司在开发和生产GPU。有两家公司主要针对智能手机和笔记本电脑开发SoC绑定的GPU，有6家开发GPU IP，有11家GPU开发商专注于PC和数据中心的GPU，包括AMD、英特尔和英伟达。

事实上，如果在名单中加入其他中国公司，如壁仞科技和天枢智信，那么GPU企业数量将更多。不过，壁仞科技和天枢智信目前只专注于AI和高性能计算，所以JPR不认为他们是传统意义上的GPU开发商。

中国的技术救国之路：GPU开发

作为世界第二大经济体，中国不可避免地与美国和其他发达的国家在几乎所有方面进行竞争。中国竭尽所能地吸引世界各地的工程师。

事实上，在中国，每年都有数百家新的IC设计公司成立。他们开发的产品种类繁多，从微小的传感器到复杂的通信芯片均由涉猎，力图实现对西方国家供应商的自给自足。

但要真正跳上人工智能和高性能计算的浪潮，需要CPU、GPU和特殊用途的计算加速技术。

谈到CPU，中国面临美国在制造设备和技术上的越来越严密的技术封锁，不可能很快赶上全球先进水平。然而在另一个赛道上，可以说，开发和生产一款像样的GPU，比试图造出一款有竞争力的CPU更容易出成果。

GPU本质上是并行设备，其内部有大量的计算单元可以用于冗余，这使得GPU更容易启动和运行，单位晶体管的成本相对较低，整体产量也不错。此外，GPU的并行性质使其更容易以扩展的方式实现部署。

与CPU相比，GPU在设计和制造上对制程工艺的要求没有那么苛刻，即使目前中国最先进的芯片制造商中芯国际并没有像台积电那样先进的生产工艺，仍然可以利用GPU性能扩展的方式实现足够可观的性能。

事实上，即使中国的GPU开发商失去了使用台积电先进节点（N7及以下）的机会，至少他们中的一些人仍然可以在中芯国际生产更简单的GPU设计，并满足AI、HPC和部分游戏/娱乐市场的需求。

而且，从国家的角度来看，具有AI和HPC能力的GPU可能也可以说比CPU更重要，因为AI和HPC可以实现全新的应用，如自动驾驶汽车和智能城市等应用。

尽管美国政府大力限制向中国出口以超级计算机为基础的CPU和GPU，但比起CPU，GPU在设计和制造上的相对较低的门槛，使得这种限制的效果远没有CPU来的明显。

GPU微架构相对容易，硬件设计却很昂贵

不过，应该注意的是，虽然目前有很多GPU开发商，但只有两家能真正为PC打造有竞争力的独立GPU。这也许是因为，开发一个GPU架构相对容易，但要正确实现它并设计适当的驱动程序确实很难。

CPU和GPU微架构基本上是「科学和艺术的交汇」。这些架构是一组复杂的算法，开发这些架构的团队规模可能相当小，但可能需要长达几年的时间。

可以这么理解，微架构是在餐巾纸和白板上完成的。至于成本，如果只是架构师自己，团队规模可以只有一个人，也许是三四个人。但是任何类型的建筑，建筑、火箭飞船、网络或处理器都是一个复杂的棋局。

比如，试图预测五年后的制造工艺和标准，性价比的权衡，增加什么功能，放弃或忽略什么功能，这些都是非常棘手和耗时的工作。

架构师们花了很多时间在头脑中进行假设，比如如果把缓存做大25%，如果有6000个FPU，是否应该做一个PCIe 5.0 I/O总线？这么做能不能按时完成？诸如此类。

由于微架构的开发可能需要数年时间，而且需要有才华的设计师，在这个上市时间至关重要的世界里，许多公司就干脆从Arm或Imagination Technologies等公司授权使用现成的微架构，或者是是经过验证的GPU IP。

例如，中国的芯动科技（Innosilicon）就从英国的Imagination公司授权GPU微架构IP用于其Fantasy GPU。

还有一家中国的GPU开发商，使用了Imagination的PowerVR架构。同时，另一家GPU制造商兆芯（Zhaoxin）使用的是Via Technologies获得的GPU微架构。

开发一个微架构的成本可能有所不同，但与现代高端GPU的物理实现成本相比，它的开发成本相对较低。

多年来，苹果和英特尔这两家拥有大量工程人才的公司都依赖Img进行GPU设计。联发科和其他小型SoC供应商依靠Arm。高通公司在很长一段时间内使用ATI/AMD，而三星在尝试设计自己的图形引擎数年后，也转向了AMD。

最近，两家新的中国GPU公司聘请了前AMD和英伟达的架构师，另外两家使用Img。进入市场的时间和学习作为一个架构师的技能，要担心什么，以及如何找到解决方法，是一个非常耗时的过程。

「如果你能去找一家已经有了设计方案，并且已经设计了很长时间的公司，可以节省大量的时间和金钱，而在市场上，时间就是一切。」

「这个过程中会有太多的问题。并非每一个由AMD或英伟达设计的GPU都能成为赢家。不过，一套好的架构设计可以经历几代的调整，慢慢进步。」研究机构Jon Peddie Research的负责人表示。

对于新的生产制程来说，硬件实现和软件开发的成本太高了。据《国际商业时报》估计，使用5nm级技术制造的设备，其设计成本超过5.4亿美元。如果制程为3nm，设计成本还将增加3倍。

「如果将布局和平面图、模拟、验证和驱动程序全部考虑在内，GPU开发的成本和时间就会激增。」Peddie解释说。

「硬件设计和布局是非常直接的：如果弄错一条线，可能要花几个月的时间来查错。」

目前，世界上只有少数几家公司能够开发出具有AMD和英伟达级别的现代游戏或计算用GPU（460亿-800亿个晶体管规模）芯片。

不过，前不久中国的壁仞科技发布的BR104和BR100也达到了几乎类似的水平。（据猜测，BR104包含大约385亿个晶体管）。

目前，全球11个PC/数据中心GPU设计供应商中的8个来自中国，这本身就说明了问题。

国产化之路急不得

作为高端芯片代表，研发GPU是一项系统性工程，涉及硬件架构、驱动开发、软件生态、销售应用等，研发壁垒高，产业链长。从国产GPU发展来看，需要软硬件的协同优化和生态的持续构建，显然这不是一蹴而就的。

摩尔线程创始人兼CEO张建中直言，“GPU硬件和软件是互相迭代、不停优化的一个过程。光有一个好的硬件还不够，需要好的软件去驱动硬件的能力，优化软件后，真正运行起来，又会发现硬件的一些缺点或是需要改进的地方，因而要不停加速硬件和软件的互相迭代过程。这需要长时间的积累。”

从硬件架构来说，究竟是采购第三方IP还是自研也是国产GPU厂商必须要做的选题题。摩尔线程CTO张钰勃认为，走到顶峰的一定是采取自研架构的路线，如果采取第三方的IP，就会受限于他们的节奏，这样是跟不上时代的，尤其跟不上像英伟达这样的领跑者。只有能够把整个架构掌握实现自研，才能够追赶头部玩家，才有可能在未来进行超越。

实现GPU量产还需要代工厂的支持。针对最近国内关于GPU的热点事件，张建中分析说，GPU并非必须采用最先进工艺不可。除了GPU硬件本身体系结构之外，软件的功能非常大，与其在硬件本身去追赶或者是采用最先进的制程，不如花更多的时间将软件实力充分发挥出来。因而，摩尔线程会注重将软实力做到更好，让GPU在真正的应用当中发挥GPU的综合算力。

要指出的是，在评价国产GPU的好坏优劣时，更应关注在特定应用环境下的性能和体验，这也意味着新的机会。“在整个新的应用行业当中，元宇宙应用是赋能下一代互联网的起点，如果国产GPU能够抓住这些机遇，在新的应用场景当中打造一个别人还没有的新的计算平台，将会极大地促进国产GPU的发展。”张建中建议道。据悉，摩尔线程将着重打造赋能下一代互联网的多元化元宇宙计算平台，满足“AI+图形+编解码+物理仿真”多功能的应用场景。

此外，要在GPU领域通关，生态至关重要。对于国产GPU的生态是走兼容CUDA还是自建生态之路，张钰勃分享说，这需要两条腿走路。摩尔线程一方面是兼容业界标准的生态，比如Windows、DX、OpenGL、OpenCL以及常用的CUDA AI开发平台。另一方面，在兼容国际化通用开发平台基础之上，摩尔线程也在打造自主的MUSA平台。

综上，可以说GPU国产化之路仍面临巨大的挑战。张建中提到，数字化经济是全球化的产业，如果GPU没有相当的竞争力，那么国产GPU的替代之路将难以持续。“如果GPU研发能力不够强，不能够参与国际竞争，其实这样的国产化并不能够真正的帮助国内GPU迅速追赶甚至超越世界的先进水平。不论是国产化还是全球化，要打磨的是GPU企业本身的技术实力，包括硬件和生态等等。”张建中总结道。

多功能GPU及软硬件产品构建全栈能力

国内众多的GPU近两年均在量产及应用层面发力，在这方面，摩尔线程也走出了自己的“加速度”。

距摩尔线程在春季发布会展示全新MUSA架构及系列重磅新品GPU芯片苏堤、面向PC和工作站的桌面级显卡MTT S60等之后，摩尔线程的秋季发布会迎来了丰硕的果实，包括全新多功能GPU芯片“春晓”、基于MUSA架构打造的业内首款国潮显卡MTT S80和面向服务器应用的MTT S3000，以及元计算一体机MCCX等。

显然，摩尔线程多功能GPU产品迭代创新实现的又一次跨越。

据悉，摩尔线程正式发布第二颗多功能GPU芯片“春晓”，集成220亿个晶体管，内置MUSA架构通用计算核心以及张量计算核心，可以支持FP32、FP16和INT8等计算精度。相较于之前发布的“苏堤”芯片，“春晓”内置的四大计算引擎全面升级，带来了显著的性能提升：图形渲染能力方面平均提升3倍；编码能力提升4倍，解码能力提升2倍；；AI计算加速平均提升4倍，物理仿真计算性能提升2.5倍。同时，引入了新技术支持窄带高清，节约带宽30%以上。

对此张建中还强调，第一颗苏堤全功能GPU是中低端的处理器，可满足部分国产化应用的需求，但大部分的主流用户希望有更高性能的GPU。因而春晓GPU将致力于满足高端游戏玩家、以及更高图形和计算能力的需求，以全面覆盖高中低端应用。

面向游戏玩家打造的国潮显卡MTT S80基于“春晓”GPU芯片打造，拥有4096个可编程MUSA核心，在1.8GHz的主频下，能够提供14.4TFLOPS的单精度浮点算力。同时MTT S80还是业内首款配备PCIe Gen5接口的显卡产品，配合16GB GDDR6大容量高速显存，再辅以8K超高清与1080P 360Hz高刷新率显示输出能力，可为游戏玩家带来极致游戏视觉和操作体验。

值得一提的是，MTT S80的成功推出使得摩尔线程成为国内率先支持Windows环境和DirectX图形接口的GPU公司。其强大的3D图形渲染能力将能够在Windows DirectX游戏中，为用户带来4K分辨率下的流畅操作体验。

而全新发布的MTT S3000作为一款基于“春晓”的多功能服务器GPU产品，通过提供多样化的算力，借助覆盖图形渲染、视频处理、深度学习的完整MUSA软件栈，可为AI推理和训练、云游戏、云渲染、视频云等场景提供高算力支持。

意识到生态协作对于AI应用的推进至关重要，摩尔线程的MTT S3000也全成升级兼容PyTorch、TensorFlow、百度飞桨、计图等多种主流深度学习框架，并实现了对Transformer、CNN、RNN等数十类AI模型的加速。

GPU是当前数据中心需要的关键算力，云原生技术应用在云计算、云桌面、云游戏等领域也越来越普遍。为此，摩尔线程发布一系列基于摩尔线程创新性MT Mesh 2.0的GPU云原生方案。面向元宇宙应用的风生水起，摩尔线程还发布了专为元宇宙应用构建的MTVERSE元宇宙平台及众多软硬件产品，包括基于MTT S3000打造的MCCX元计算一体机等，可实现数字人、语音识别、视觉识别、自然语义理解等一系列功能，进一步简化应用和解决方案的开发周期和难度。

谁能成为中国的AMD和英伟达？

核显级GPU：兆芯、龙芯、飞腾、凌久、翔腾

这些厂商的GPU研发起步比较早，不少是配合自家CPU而开发的，比如龙芯集成在7A2000桥片里的GPU，兆芯集成在KX-6000G系列CPU里的GPU，以及飞腾X100上集成的GPU。在技术来源方面，有些厂商明确表示采用了外来技术，有些则没有公开声明。下面简单谈谈这些核显级GPU。

先谈兆芯，其GPU技术源自S3，2019年发布的兆芯KX-6000，其核显与S3的C645规格和性能类似，甚至连驱动都能共用， 3Dmark成绩为250分左右。媒体近期披露的KX-6000G核显3Dmark成绩为1000分左右，相对于兆芯6000提升了3倍，这个成绩和英伟达GT630差不多，性能作为核显是足够了，特别是当下党政办公Wintel电脑的独显也就这个水平。

龙芯在CPU方面起步很早，但GPU起步要迟很多。最初，龙芯在GPU上使用AMD桥片集成的GPU，后来购买了一款商用GPU IP。龙芯做GPU一方面是服务于自身发展的需要，另一方面也是因为遭遇“卡脖子”。当时，该商用GPU有Android操作系统的驱动程序，但龙芯需要Linux的Xserver驱动，厂家自己开发不了，龙芯希望厂家提供内部配置寄存器如何使用的手册，由龙芯来自己开发。然而，厂家以商业机密为由不肯提供。至今，龙芯2H只有在Android上有3D驱动，Linux的Xserver驱动只有2D的。这使得龙芯非常难受，无论是AMD的桥片，还是所购买的商用GPU IP都存在被卡脖子的风险，因而只能自己开发GPU。龙芯7A1000桥片集成的GPU是基于某款商用GPU IP进行重写，7A2000桥片集成的GPU则是在前代GPU基础上的迭代演进。龙芯GPU的性能比较弱，基本属于亮机卡的范畴。

飞腾的GPU技术来源不明，官方宣传也非常少，只在招股书上看到GPU的只言片语。由于缺乏性能参数介绍，加上飞腾在GPU方面缺乏技术积累，根据用户反馈，铁流推测飞腾的GPU和龙芯GPU比较类似，都属于亮机卡的范畴。

凌久GP101由中船重工研发，技术来源未知，可能是自主正向研发的。凌久GP101性能参数资料少的可怜，但从其仅支持OpenGL 2.0可以看出，性能是非常有限的。根据用户的使用反馈，基本可以认为和飞腾、龙芯的GPU处于同一个档次。

翔腾和景嘉微的GPU大致起步于同一时期，最初都是基于特定装备的需求，只不过景嘉微之后走了更加商业化的路线，更加注重宣传，翔腾则依旧深耕装备领域。这也产生了截然不同的结果，此后，景嘉微开发了JM7200和JH920，进军信创市场，而翔腾的HKM9000则用于C919。景嘉微早期的JM5400和翔腾的HKM9000都属于亮机卡级别的。

独显级GPU：芯动科技、格兰菲、景嘉微

由于国产GPU性能偏弱，这里的独显级GPU相对于国外产品而言差距巨大，特别是这几年英特尔、AMD的GPU性能大幅提升，直接导致部分国产独显级GPU和国外顶尖核显性能差距拉大。当然，我们在看到差距的同时，更要看到国产GPU的进步，下面谈谈这三款独立显卡。

首先看风华2号。风华2号由中国一站式IP和GPU领军企业芯动科技研发，他们从事IP开发已经有16年，在中芯国际最先进的还是90nm工艺时，芯动科技就开始自主开发IP。目前，芯动科技已经研发了近百个IP，进入了全球各大顶级晶圆代工厂的各种工艺制程，而且这些IP均实现了量产，历史客户群涵盖中兴、瑞芯微、全志、君正、AMD、亚马逊、高通等公司。最近几年，芯动科技将业务拓展至新赛道，着手GPU研发，目前是基于Imagination（已被中资收购）的GPU架构自主开发，同时采用全套自研高性能IP。和苹果公司一样，芯动在架构授权的基础上不断优化GPU内核，现已完整独立掌握了GPU内核演进架构图，实现了自己的GPU架构把控，并将以每年发布两款GPU的速度迭代演进。

由于风华2号刚刚发布，目前还没有3DMark成绩，只能从其规格上推算其性能。以下为基本参数：GPU像素填充率48GPixel/s，FP32单精度浮点性能1.5TFLOPS，AI运算（INT8）性能12.5TOPS，实测功耗4至15W，支持OpenGL4.3、DX11、Vulkan等API。作为参照，英伟达GT1050像素填充速率为43.3 GPixel/s，FP32为1.862 TFLOPS，TDP为75W。就像素填充速率和FP32来说，风华2号和GT1050大致处于同一档，3DMark测试分数推算应当在GT75至GT1050之间。

格兰菲是兆芯把自己的GPU部门独立出去，同时吸引其他投资人入股成立的GPU公司。其技术流传过程是2000年VIA收购S3，10年前VIA把S3以合资方式归属兆芯，2020年兆芯又把GPU独立出去成立格兰菲，由于兆芯收购S3技术已经有10年了，在研发方面已经是国内团队挑大梁，走的是技术引进消化吸收再创新的路子。格兰菲最新的显卡是Arise-GT-10C0，单精度浮点性能为1.5TFlops，GPU像素填充率48GPixel/s，主频500Mhz，工艺28nm，TDP为45W，支持DX11和OpenGL4.5、Vulkan等API。从以上参数可以看出，Arise-GT-10C0的规格看起来与风华2号相似，但是功耗却是风华2号的3倍以上。

最后来看景嘉微JH920。JH920是景嘉微继JM5400、JM7200之后的第三代GPU，支持OpenGL4.0、OpenCL 3.0、Vulkan 1.1等，但不支持DX。JH920制造工艺为14nm，FP32浮点性能为1.5TFlops，像素填充率达到了32G Pixels/s，显卡功耗为30W，从参数上看JH920在像素填充率和API支持上均逊色于风华2号和Arise-GT-10C0。

结语

随着中国的实力越来越强，美国将会越禁越多，我们在高端方面的突破也将会越来越难，但黑暗终将会过去，中国的半导体事业终将取得胜利！

来源：贤集网

免责声明：本文为转载文章，转载此文目的在于传递更多信息，版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题，请联系小编进行处理。