从TCS23,看Arm TCS的设计理念

发布时间:2023-06-27  

随着Arm TCS23(Total Compute Solutions 2023)的推出,Arm 终端事业部产品管理高级总监 Kinjal Dave在Arm官方博客上发表了一篇题为《TCS23 为移动计算提供完整平台》的博文。日前,Kinjal Dave面对中国媒体,详细介绍了TCS23性能的提升,以及为终端带来体验的提升。


自2019年决定开始使用TCS的方法进行产品定义和开发之后,Arm以解决方案的角度进行技术产品的开发已经持续了几年,目前TCS23是第三代TCS。


TCS是将CPU、GPU、系统级 IP 元素融合,力求通过平台化、方案化的方式满足不同客户共同的需求。每年产品的迭代升级,使得开发变得更加困难,同时成本也日趋高昂,为了不断增强用户体验,Arm选择推出TCS整体方案,以全面的系统级平台应对一切挑战。


TCSf23都包括什么?


image.png


作为整体解决方案,Arm的TCS包括了工具、软件、硬件IP,硬件IP包括了底层IP、Arm架构、物理IP以及POP IP等。


硬件IP已经是连续数年的双位数提升,具体包括了CPU IP Cortex-X4、Cortex-A720和Cortex-A520,以及GPU IP Immortalis-G720、 Mali-G720和Mali-G620。


软件方面,Arm看重性能、安全以及开发者的可访问性。针对如今机器学习的大热,TCS23中更新了包括Arm NN 以及 Arm Compute Library (ACL)的库。


Dave透露自 2023 年 1 月以来,Arm NN和 ACL 已经通过谷歌的 Google Play Store 在安卓系统上提供,而且已经有超过 1 亿的日活跃用户。此外,到 2024 年,不管是Arm NN还是 ACL 都可以使用谷歌的移动平台,意味着开发者能够在可下载的项目,在默认状态下更新到网络最新的版本。


在图像开发方面,Arm除了提供免费的开发工具之外,还与游戏引擎工作室进行合作,一起推动图形技术的进步,并且以可扩展的方式实现产品的优化。并且为开发者提供培训以及最佳实践分享,以及与游戏工作室进行合作等等。


在系统方面,升级到了最新的Arm v9.2架构,DynamIQ共享单元也得到了升级,支持更多的可扩展性以及更细致的电源控制模式,可通过更细的颗粒度降低功耗。


Arm也针对最新的工艺节点和库优化了物理IP,为设计和制造提供了优化的EDA流程与物理实现。


Dave强调,作为整体平台,Arm TCS是以全局观来提高方案的性能和效率。一方面要提升单独的IP性能,另外则是提升整体IP集合的系统级性能。


更科学的测试方法


而在测试方面,Arm一方面使用基准测试来评估产品性能,另外则是从实际应用的角度进行真实的测试与评估。“我们会超前生态系统的发展展开研发工作,所以如果在此前找不到一些实际的技术内容,我们可能就会自己建构这些技术内容。比如光线追踪技术、VRS以及机器学习内容等。”


在系统测试方面,Arm 2022年在 FPGA 上构建了一个完整的子系统原型验证平台,从而超越独立IP,来分析完整运行的操作系统及程序,比如安卓 13 以及复杂的工作负载。完整的参考系统包括一个Cortex-X4,三个Cortex-A720,以及四个 Cortex-A520,此外还包括DSU-120 和L3 缓存,CPU集群与Immortalis-G720 GPU通过CoreLink CI-700 互联,并且搭载了最新的 LPDDR5x。

image.png

通过现实的用例环境以及实验室基准测试,TCS23得到了非常好的结果,比如每帧平均减少 30% DRAM 的带宽,而在PUBG实际测试中,DRAM 带宽更是减少了 44%。


DRAM带宽的减少为什么重要?实现更少量的数据传输,减少外部的带宽,就意味着降低系统能耗。实现方式则是通过更多的GPU 管道来减少数据传输,减少系统级缓存,从而避免从外部存储器加载数据。


DRAM带宽减少主要是因为Immortalis-G720 GPU 采用了称为延迟顶点着色(DVS)的技术,GPU在执行阶段才会载入内存中,不像之前那样需要两次载入内存,因此大幅降低了对带宽的要求。

image.png

GPU实际测试采用了GFXBench,曼哈顿3.0结果显示比TCS22提升了21%,阿兹特克废墟测试则提升了20%。

image.png

在CPU相关测试中,1+5+2的新一代CPU集群相比TCS22 1+3+4的方案,GeekBench 多线程性能提升了27%,这是计算机、笔记本电脑和智能手机的主要基准测试。而Speedmeter纯硬件性能提升了33%,软硬件协同优化下更是可提升64%。Speedometer 是一个浏览器基准测试工具,通过模拟用户在Web 应用上的交互来衡量响应速度。

image.png

而关于ML的测试,TCS23 和 TCS 22相比,CPU在物体识别、物体分类、实时人脸识别以及人体追踪等方面都实现了双位数提升。而GPU方面,Immortalis-G720支持FSRCNN 720p FP32超分辨率的机器学习。


在软件测试方面,Arm支持Profile Guided Optimization (PGO),可以收集应用执行需要的各类数据、信息,并针对性的进行优化。收集功能可以详细了解应用的瓶颈,从而能够有指导的进行调整,获得最大的增益。比如光线追踪技术,软件以及硬件的优化为它带来的性能的提升。Arm在参考平台上运行的 PGO 版本的 Chromium浏览器提升30%。


Dave表示,TCS23软件的提升包括:安卓动态性能框架 (Android Dynamic performance Framework, ADPF) 、仅支持64位的迁移、更高的安全性,以及更完善的编译器。其中,安全方面的提升包括AVF 安卓虚拟化的框架,更高性能的加密算法,TF-A 的升级。


TCS23参考设计详解


Arm参考设计是为了降低部署风险,缩短产品上市周期的一种有效方法。Dave指出目前移动SoC设计存在着诸多挑战,包括IP越来越复杂、需要跨领域跨系统调试、终端场景多样化以及整体芯片设计流程等等方面。


Arm的参考设计并不是Arm拍脑袋想出来的,而是将合作伙伴的现实用例解构、再建模、针对模型进行测试和优化,然后再开发基于FPGA的仿真,验证,测试等等一系列流程之后,才会交付到客户手中。


TCS23 的参考设计包括了CPU集群、GPU集群、内存管理MMU-700、DSU-120多核心管理系统单元、CoreLink CI-700和NI-700互联技术,MMU-700转换缓冲单元等。


在降低功耗方面,首先是电源模式时钟选项提供完整的解决方案,其次是动态共享单元集群支持的 L3 缓存片和逻辑增强型降功耗模式。正如文章开始时表示,DRAM延迟在TCS23上通过DynamIQ实现了优化,另外包括GPU、摄像头以及多媒体等内存加载实现了优化。

image.png

另外,TCS23支持高级供电模式,不同的IP不同的供电线路,有单独的电压管理、电源管理以及电源及电源网络控制不见,从而实现细化的调度器,和操作系统的电源管理软件搭配工作。

image.png

GPU的优化包括了带宽、功耗以及安全性。Arm将Immortalis-G720与MMU-700协同实现了优化。GPU支持固定速率和无损压缩方案 (AFRC 与 AFBC),最大限度地减少 DRAM 的访问,并且能够支持更多的散热空间。同时IO一致性也将缓存维护开销降到最低。CoreLink CI-700提供了大型系统高速缓存,并且通过内存分配提示优先可以确定哪部分存在高速缓存中。


功耗方面,GPU同样利用时钟管理动态功率,提供了时钟和复位生成逻辑的参考。


最后,安全性方面,MMU-700 支持 DRAM 保护内容安全处理,以及支持安卓虚拟化框架。


总的说来,通过提供 TCS 全面计算解决方案,Arm 已经超越单个 IP 产品的供应商,为客户实现端到端系统级的优化,从而释放整个 SoC 系统全面性能,让大家更多更快的体会到 TCS23 所带来更大的算力、更高的安全性和效率。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    数睿数据参加《系统与软件工程 低代码开发平台通用技术要求》国家标准编制;南京2024年8月27日 /美通社/ -- 2024年7月29至30日,由全国信标委软件与系统工程分委会(TC28/SC7......
    plc控制器怎么用 plc控制器怎么修复;  plc控制器怎么用   PLC(Programmable Logic Controller)控制器的使用通常需要以下步骤:   了解......
    的控制信号并将信号引至接头,控制电磁阀动作。 继电器驱动电路(Relay)控制了泵油电机继电器,电磁阀继电器和步进电机继电器。 此外,还需将副节气门位置传感器信号通过A/D输入引脚P5.6传送给单片机。 TCS的ECU软件......
    s3c2410怎么将nandflash的地址映射在内存空间上进行使用?或者简单地说应该怎么用nandflash?再有,使用ADS进对ARM9行编程时都需要使用到一个初始化的汇编文件,这个文件究竟有什么用......
    实际需要使用的功能来设计的。只要用户能够掌握某种标准编程语言,就能够使用PLC在控制系统中,实现各种自动化控制功能。PLC有五种标准编程语言:梯形图语言(LD)、指令表语言(IL)、功能模块语言(FBD)、顺序......
    大家更深刻些。 四、Keil软件的安装以及怎么用ISP软件下载 ① Keil软件怎么安装,以及怎么破解,基本的设置,怎么使用,大家网上去搜索,如果这一点都做不到,不要说你会用电脑(关于......
    “开放“的精神格格不入,要知道从Unix/BSD操作系统到现今在大数据领域流行的Spark框架,他们都是用一个非常宽松的名为BSD License的许可证的发布的。这个License简言之就是我发布的代码你想怎么用怎么用......
    是自己有台电脑,少看电影,少打游戏,把学习板和电脑连好,打开调试软件坐在电脑前,先学会怎么用调试软件,然后从最简单的流水灯实验做起,等你能让那八个流水灯按照你的意愿随意流动时你已经入门了,你会......
    老板不懂硬件怎么办?(2024-11-25 11:22:04)
    老板不懂硬件怎么办?; 很多有硬件产品的公司,很多老板不懂硬件。如果作为供应商或者合作伙伴甚至下属员工与其沟通的话,大家会非常难受,因为老板觉得硬件非常简单。所以......
    日进行封闭编制、完成初稿编写,6 月 20-21 日进行专家评审,8 月 14 日上海市车联网协会召开标准技术审定会,受到与会专家一致通过。 官方表示,这次团标发布“不仅是两项标准编制的终点,更是......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>