昨日,龙芯发布新一代自研国产CPU 3A6000的消息刷爆朋友圈。
CPU(处理器)和OS(操作系统)是信息产业的底座,但还有更底层的‘根技术’被卡脖子,比如指令系统、芯片生产工艺和设备材料等。
回顾20年以前,龙芯1号面世,彼时它还基于MIPS授权指令集,直到2021年,龙芯发布3A5000处理器,采用自主研发的LoongArch指令集(龙架构)。此刻开始,中国彻底摆脱国外厂商的依赖。
两年后的龙芯3A6000,同样采用我国自主设计的指令系统和架构,无需依赖任何国外授权技术,是我国自主研发、自主可控的新一代通用处理器,可运行多种类的跨平台应用,满足各类大型复杂桌面应用场景。
实际上,早在今年8月8日,龙芯中科便宣布新一代四核处理器龙芯3A6000流片成功,彼时,便陆续放出细节信息。那么,这款产品在本次宣布中,有哪些信息值得关注?
第四代架构新处理器
在硬参数上,龙芯3A6000拥有4个物理核和8个逻辑核,主频为2.0~2.5GHz,此外,它可以超频到 2.63GHz,而在液氮下保守可跑到 3GHz(BIOS 限制),后续还能继续提升;支持双通道DDR4-3200,通过设计优化大幅提升效率;采用第四代64位高性能架构LA664,大幅提升性能,实现SMT2技术;片内集成安全可信模块,支持安全启动和国密算法(SM2、SM3、SM4);支持128位向量处理扩展指令(LSX)和256位高级向量处理扩展指令(LASX)。
其中,3A6000值得关注的参数包括:
01 用多线程大幅增幅性能
3A6000使用与3A5000相同的生产工艺,但3A6000突破了同时多线程(SMT)技术,能让CPU核心做到“一心二用”,在同一时刻运行多个线程,类似于周伯通的“双手互搏”,支持CPU核心在同一时刻运行多个线程,因此,可在频率不变条件下把单核性能提高了60%,多进程通用处理性能提升100%,这完全来自于CPU核心设计的提升。
从2013年开始,龙芯就开始练好内功,通过设计优化提高CPU性能,现在3A6000已将差距全部补齐。
中国电子技术标准化研究院赛西实验室测试结果显示,龙芯3A6000在2.5GHz频率下,SPEC CPU 2006 base单线程定/浮点分值分别达到43.1/54.6分,多进程定/浮点分值分别达到155/140分;SPEC CPU 2017 base单线程(rate1)定/浮点分值分别达到5.05/7.78分,单进程多线程(speed)定/浮点分值分别达到6.66/18.1分,多进程(rate8)定/浮点分值分别达到21.3/21.0分;Stream实测带宽超过42GB/s;Unixbench实测超7400分。
综合相关测试结果,龙芯3A6000处理器总体性能与Intel公司2020年上市的第10代酷睿四核处理器相当。
华硕电脑开放平台中国区总经理俞元麟在大会现场展示了龙芯3A6000的测试成绩,在多核定点 / 浮点成绩上强于英特尔i3-10100处理器。
根据知乎用户guee的实际测试,龙芯3A6000基础性能测试部分超过10代酷睿i3,部分则有10%左右差距,主因是编译器和OS版本还未迭代优化,随着编译器和OS到位,未来还有上升空间;此外,单核性能追平了Intel 酷睿13代,但3A6000的主频较低,实际性能主要还是对标酷睿10代i3。
02 第四代微架构还不是完全体
3A6000采用龙芯第四代微结构LA664,这个结构是啥?
简单解释就是处理器中每个核心结构。比如,龙芯3A5000中,通过片上交叉开关集成4个64位的四发射超标量LA464处理器核、16MB共享三级缓存、2个64位DDR4内存接口、2个16位Hyper Transport3.0接口。
3A5000及LA464处理器核架构
可以看出L464到L664是全方位的提升,发射宽度从4提升至6,ROB项数从128提升至256,定点和向量物理寄存器数从128提升至192,发射队列项数(访存+定点+向量)从32+32+32提升至48+48+48,load队列项数从64提升至80,store队列项数从48提升至64。
龙芯系列芯片一直按照Tick-Tock路线发展,Tick指的是工艺节点的增强,Tock指的是微体系结构的增强。
目前来看,第四代微结构LA664只公开了Tock(微体系结构增强)。我们都知道3A5000和3A6000都使用了境内的12nm制程工艺,因此,不难看出,第四代LA664更为注重结构上补强。大胆猜测下,当实现另一部分Tick部分增强,芯片性能也会迎来巨大性能增幅。
03 大量自主研发IP
另外,在IP方面,龙芯的主要IP核均自主研发,目前龙芯的软硬IP核数量已经有上百种。而应用在3A6000中拥有LA132、SM2、SM3、SM4、HT3、DDR4、UART几个软IP和PLL、DDR3/4-PHY、HT-PHY硬IP。
也就是说,PCIe的IP为自主研发,可以做得很小并且成本更低,这也是自己做IP的好处。
04 生态已完成基础建设
在龙芯中科董事长胡伟武与其团队在2023年发送的论文中,我们可以看到,LoogArch基础生态构建大致可分为4个阶段:第1个阶段是GCC交叉编译工具链与模拟器研发,达到可生成LoongArch架构代码并在模拟器上运行相关代码的目标;第2个阶段是构建最小Linux系统,完成BIOS、内核开发,迁移常见的Linux命令行工具,生成初始根文件系统;第3个阶段是更多软件的移植,包括GCC之外的各编译系统以及Chrome浏览器、KVM和Docker等关键基础软件;第4个阶段是上游社区建设与第三方软件适配。
前3个阶段分别耗时约6个月,初步形成了一个较为完整的基于开源软件的生态体系,第4个阶段在大约18个月的时间内,使得LoongArch生态基本达到了龙芯原有MIPS生态的成熟程度:进行了大量软硬件磨合优化工作,通过二进制翻译系统实现了一批常见Windows应用的高效兼容运行,完成了常用的国产操作系统、办公软件、云和安全软件等重要商业软件的适配,实现了基于LoongArch的产品批量销售。
这4个阶段总体上应用了3个策略:先模拟后真机、先开源后商业、开源开放,在实现新指令系统的CPU产品化之前,只能通过模拟器进行基础软件栈的研发和技术验证,前2个阶段和第3个阶段的一部分都是在模拟环境中进行,我们设计了能够精确模拟真实硬件的模拟环境,并采用二进制翻译优化技术提升其运行效率以满足大规模软件开发的需求.而蓬勃发展的开源软件运动,则极大地降低了构建基础生态的门槛,使得LoongArch能够在较短时间内初步形成软件基础生态,龙芯团队采用开源开放的模式维护LoongArch的软件基础生态,有效促进了第三方商业软件的迁移适配。
最新发布的龙芯3A6000与龙芯3A5000等龙架构处理器软件兼容。
首先,龙芯中科架构已得到国际开源软件认可,开发者可完全基于龙架构的国际开源软件直接构建出完整的操作系统。
其次,该框架得到了国内操作系统和基础应用的认可和支持,统信、麒麟、欧拉、龙蜥、开源鸿蒙等操作系统,支持WPS、微信、QQ、钉钉、腾讯会议、美团等应用,均对龙芯3A6000新特性进行全面支持。
龙芯3A6000完善了对软硬协同的二进制翻译的支持,可提高二进制翻译效率,运行更多种类的跨平台应用,满足各类大型复杂桌面应用场景。
不止如此,龙芯中科秉持开放、合作的开源生态建设理念,累计向近200个国际开源软件项目社区贡献超百万行源码。大量国内外开发者也加入龙架构的开源生态建设中,为开源社区龙架构版本开发做出重要贡献。龙架构的基础软件发展已经深度融入国际开源软件生态体系。
在这个过程中,龙芯基础版操作系统和商业操作系统、通过二进制翻译融合软件生态、建立面向工业控制的生态体系、龙芯开源社区建设都是生态建设的关键。
可以说,由此可以看出,龙芯在软件生态上,已经取得极大进展,实现大量常用的国产操作系统、办公软件、云和安全软件等适配。而在未来,龙芯中科技术股份有限公司董事长胡伟武表示,龙架构可能会探索运行Windows、安卓应用等方面广泛兼容,此外,在广泛兼容方面,通过二进制方案运行x86应用,龙芯中科会架起两座桥,一是把x86的指令翻译成龙架构指令,另一个是把Windows接口翻译成Linux接口。
未来,龙芯争取再经过1~2轮的软硬件磨合迭代,到2025年前后通过技术手段消除单一指令系统的壁垒,使得不同指令集的系统及应用软件能够融合到统一的龙架构平台上,不加区别地运行;对外开放龙架构,鼓励更多学术界和产业界人士参与架构的持续改进。
打印机主控芯片一并面世
除了国产CPU龙芯3A6000处理器外,龙芯还发布了一款2P0500打印机芯片。它是国内首款基于自主指令系统的单/多功能打印机的主控SOC芯片,作为打印/扫描整机中的核心控制部件,龙芯2P0500的研发成功将助力推动更多国产打印机走向市场。
该芯片采用异构大小核结构,内置一个龙芯LA364、两个龙芯LA132处理器核及512KB共享二级缓存,集成DDR3、GMAC、OTG、USB、打印接口、扫描接口、图像单元、PMIO、AD / DA、eMMC、SDIO、SPI、PWM等多种功能模块,实现功耗管理控制模块,单芯片可满足打印数据接收、解析和处理,打印引擎控制,扫描时序控制,扫描数据,图像处理,马达控制等功能,单芯片即可满足打印、扫描、复印等多种典型应用需求。
基于龙芯2P0500推出打印机、扫描仪、复印机等多种解决方案,并与国内多个主流打印机整机厂家合作,完成打印、扫描、复印等多种应用适配。
值得一提的是,龙芯中科此前表示,将于2023年底前完成龙芯2P0500的产品化工作,根据官方公布的样机图,该芯片适配了长城、汉光、极印等国产打印机品牌。
未来推出什么产品
01 CPU三剑客值得期待
在3A6000中,我们看到了全新的第四代微结构LA664,围绕第四代架构,龙芯还会推出新产品,胡伟武将其成为“三剑客”,即桌面CPU 3A6000、服务器CPU 3C/D/E6000、移动CPU 2K3000。
“龙芯3A6000走出了一条基于成熟工艺,通过设计优化提升性能的道路,自主研发CPU的性能完全可以赶上并超过国际主流产品水平。”胡伟武这样解释Tock升级的第四代架构。
龙芯后续将推出3B6000(4大核+4核,内置自研GPU)、3B7000(更先进工艺的产品)等桌面端产品,服务端的龙芯3C6000(16核32线程,DDR4-3200x4,访存带宽成倍提高)已完成设计,笔记本端已完成2K3000前端设计。由于龙芯坚持自研IP,需要定制内存接口、PCIE 接口等PHY,这些产品都需要更多时间才会面世。
2023年Q3业绩说明会上,龙芯中科技术股份有限公司董事长胡伟武提到:“我们正在努力提高每GHz性能接近或达到苹果CPU的水平。3B6000将争取每GHz的性能再提高20%~30%,在此基础上用先进工艺提高主频。”
02 破解Chiplet的核心
胡伟武在演讲中提到,3C6000已通过龙链技术实现了片间互联,实现LS3D6000双硅片32核64线程、LS3E6000四硅片64核128线程,支持GPGPU、各类加速器扩展。
这便是龙芯中科最新的互连技术——“龙链技术”。龙链技术对标NVLink、CXL,可实现Chiplet(小芯片、芯粒)的连接,相较于3A5000的片间互联协议比片间互联延迟成倍降低,带宽提高了好几倍,大大提高多片协同工作的性能,与NVLink比,龙链速率还低一些(目前每位速率是16Gbps,下一步将提高到32Gbps),但效率已经不错了。
03 通过龙链研制GPGPU
龙链的意义不止于此,龙芯中科将基于2K3000的GPGPU技术及3C6000的龙链技术,研制专用GPGPU芯片。
龙芯第一代GPU核LG100已在7A2000和2K2000中应用,第二代龙芯GPU核LG200研制工作则在持续进行中,支持图形加速、科学计算、AI计算,支持包括OpenGL、OpenCL、Vulkan等图形API和计算API。
目前正开发9A1000等GPU,9A1000的INT8性能可达32TOPS,支持多个GPU通过龙链互连,可降低延迟提升带宽,提高多片协同工作的性能。龙芯9A1000 GPU计划在2024年Q3流片,对标AMD RX550。
IP一次性授权,永不收版税
当我们翻看胡伟武历史的论文,总能看到这样一句话——“软件生态是龙芯指令系统架构能否成功的基础和关键。”
目前,龙架构已建成与x86、ARM并列的Linux基础软件体系,得到与指令系统相关的主要国际软件开源社区的支持,也得到了国内操作系统及基础应用的支持,但这并非结束,而是开端。
为了加强生态体系建设,龙芯中科要与合作伙伴共建。胡伟武表示,首先解决做龙架构芯片企业少的问题,龙芯中科将CPU IP核开放授权,永不收版税,即“卖芯片不收提成”,且无需对被授权企业进行审计。
“在政策性市场带动下,基于龙架构的自主体系基本形成,但各环节仍比较薄弱。一枝独秀不是春、百花齐放春满园,龙芯中科将秉承共建、共商、共享的理念,与合作伙伴共建龙架构生态。”
龙芯生态伙伴苏州雄立科技也推出了集成龙芯 CPU IP 的高集成度三层千兆网络交换芯片 XL63 系列并交付市场。这也是除龙芯中科之外的第二家企业推出龙架构芯片产品,标志着龙芯通过开放授权建设龙架构生态的一大跨越。
胡伟武认为,当前RISC-V架构过度开放,生态呈现碎片化特征,软件不兼容,考虑到Arm授权不允许加指令,因此限制了创新,虽然目前RISC-V已经开放了已有 2000 多条指令应用,但自行增加指令需符合硬件规范,只能通过开放库使用。
会议上,龙芯中科与苏州雄立科技有限公司、大唐可再生能源试验研究院有限公司、得一微电子股份有限公司、山东领能电子科技有限公司、三峡智控科技有限公司、国家超级计算无锡中心、北京得瑞领新科技有限公司、北京科技大学工业互联网研究院、西安微电子技术研究所、北方自动控制技术研究所共10家企业签署合作协议,使用基于龙架构的CPU核设计超算芯片、专用控制芯片、存储芯片等多种SoC芯片。
革命不分早晚,开源也一样。事实上,龙芯不止一次公布自己的这项计划,对比Arm,龙芯IP授权费要便宜得多,相信在更多厂商尝试过龙芯IP后,将来生态也会水到渠成,国产芯片也会越做越强。
参考文献
[1] 知乎:详测龙芯3A6000——性能强到没有朋友.https://zhuanlan.zhihu.com/p/652886534
[2] 胡伟武,汪文祥,吴瑞阳,王焕东,曾露,徐成华,高翔,张福新.龙芯指令系统架构技术[J].计算机研究与发展,2023,60(1):2-16.DOI:10.7544/issn1000-1239.202220196
[3] 北京创新发布:追平国际先进水平,我国自研新一代通用处理器发布.2023.11.28.https://mp.weixin.qq.com/s/Yg1Rp2M7Amr0dT7oBjGw_w
[4] 硬件世界:两大国产显卡被美国“拉黑” 但绝不屈服!龙芯显卡要来了.2023.10.18.https://mp.weixin.qq.com/s/ZdFKyqxS2n5WwhR_hgNAdQ
[5] 胡伟武. 龙芯基础软件生态建设思路[J]. 软件和集成电路, 2022, (11): 48-51.