在2021世界人工智能大会同期,燧原科技举办新品发布会,推出其第二代人工智能训练产品组合,即“邃思2.0”芯片、基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组,更新了软件平台“驭算TopsRider”,还推出了全新服务器产品云燧智算集群CloudBlazer Matrix 2.0。
随着内容视频化与万物互联进一步发展,全球产生的数字化数据量增长势头凶猛,而且越来越多种类终端产品接入,数据形态日趋多元化,非结构化难处理的数据占比增加,在数据处理中,人工智能算法作用越来越大,互联网厂商对人工智能加速芯片的需求也越来越多,人工智能对算力的要求越来越高。在发布会上,清华大学教授尹首一就表示,人工智能算力需求每3.4月翻一番,远超摩尔定律。
要满足人工智能应用对算力需求,就离不开芯片。根据赛迪顾问的推算,2019至2021年间我国人工智能芯片平均年增速可超过50%,市场规模在2021年约为300亿元左右,其中云端训练芯片市场规模约为139亿元,云端推理芯片市场规模约为82亿元,而终端推理芯片约为84亿元,各细分市场均需求旺盛,而在云端训练芯片市场上,当前仍由英特尔、英伟达和赛灵思等外资厂商占绝对主导地位,国产替代空间广阔。
尹首一认为,想做好人工智能芯片,要解决三个问题。首先是芯片本身的延展性,因为算法在不断演进,人工智能系统在不断变化,所以人工智能芯片要有一定可编程性;其次是算法包容性,神经网络只是人工智能应用的一个分支,还有众多传统算法在人工智能应用中发挥着重要作用,所以人工智能芯片要具备覆盖不同类型计算任务的能力;第三是能效比,从数据中心、云计算到边缘物联网设备,能效问题始终是芯片面临的最大挑战。
针对这些挑战,燧原科技此次宣布的“燧原产品定理”在一定程度上给出了解决路径:在“平均业务”中,燧原每一代产品必须比前一代能效比提升三倍,性价比提升两倍,并且软件向后兼容可靠。燧原科技COO张亚林公布了云端训练产品路线图,计划2023年推出的第三代加速卡和计算集群产品,其能效比将是初代产品的14倍。
具体来看,燧原科技本次发布的邃思2.0与上代产品同样采用格芯12纳米工艺,利用立体封装技术整合9颗裸芯片,单精度32位浮点数算力达40 TFLOPS,比邃思1.0单精度算力提升一倍。邃思2.0对张量计算进行了大幅优化,单精度张量TF32峰值算力达到160 TFLOPS。此外,邃思2.0也支持半精度16位浮点运算(峰值算力160TFLOPS)以及8位整数精度(峰值算力320TOPS)等多种数据格式运算。性能已经优于国际领先厂商的次旗舰产品,与旗舰产品相比也是互有胜负。
左:燧原科技CEO赵立东
右:燧原科技COO张亚林
对于云端训练等应用,芯片做出来只是第一步,如何用起来才更重要,为帮助客户用得好,燧原科技为用户提供了计算加速卡、服务器和完整的软件开发环境与支持包等产品。
云燧T20和云燧T21是基于邃思2.0打造的两款AI训练加速板卡,邃思2.0的参数即由云燧T21板卡测试得出。在本次推出的服务器产品云燧智算集群CloudBlazer Matrix 2.0中,最高支持8192张云燧训练卡级联,从而实现最高1.3E(130000T)单精度浮点运算的算力。
驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同架构设计,充分发挥邃思2.0的性能;基于算子泛化技术及图优化策略,支持主流深度学习框架下的各类模型训练;利用Horovod分布式训练框架与GCU-LARE互联技术相互配合,为超大规模集群的高效运行提供解决方案。开放升级的编程模型和可扩展的算子接口,为客户模型的优化提供了自定义的开发能力。
在发布会上,燧原科技CEO赵立东宣布建设异构计算生态的“燎原”计划,目标是以人功能为起点构建通用异构计算生态,构建标准化技术体系,共建完整生态服务数字中国。
在当日的产品发布会上,多位专家学者和投资人都提到了生态建设的重要性。以个人电脑市场为例,我国前后几十年的投入,信创市场仍然不能说达到了自主可控好用的预期目标,只有芯片没有建设好应用生态就是一个教训——当然也有芯片性能难以满足市场化推广要求的原因。
投资方代表武岳峰资本创始合伙人武平就表示,把生态搭建好,芯片才能用得好。中国有全世界领先的互联网生态,但在芯片产业上还比较幼稚,最近不少国内厂商宣布进入高难度大芯片领域,但像燧原科技这样能说到做到的企业还不多。如果全产业上下游通力合作,给予中国芯片更多试错空间,将来数据中心终将用上以燧原科技为代表的中国芯主芯片。