视海芯图2020年成立,之后几年间先后引入包括舜宇光学、网易有道以及虹软科技三家上市公司战略投资,公司也与战略投资方进行深度合作,推出了3D视觉加速芯片。
日前,视海芯图创始人、董事长许达文在第十三届松山湖中国IC创新高峰论坛上,介绍了公司即将量产的第二颗芯片——支持多模态加速的SH1580。
Transformer由于具有全局特性以及知识迁移性等特性,目前在COCO排行榜中远高于CNN,再加上ChatGPT火热带来Transformer的认同度越来越高,因此目前更多的框架都在从CNN切换至Transformer。
许达文表示,在云端,Transformer可以通过GPU实现,但在边缘终端,目前Transformer加速的NPU还不能很好的支持Transformer。“Transformer结构区别于传统的CNN结构,Transformer更多是以数据为中心的计算架构,一些访存密集型算子要么很难映射到NPU,要么就是映射效率低,需要CPU联合配合。”
SH1580通过集成Transformer加速架构,试图解决这一问题。其独创的PTPU(多态张量处理器)架构,通过可重构数据流设计,可以兼顾CNN与Transformer加速。
许达文表示,由于Transformer是数据密集型的AI模型,因此做了数据压缩处理架构,通过改造的DMA,实现了数据存取和计算的兼容。
这种灵活的基于Transformer的加速器,可以灵活满足各种复杂的场景和算法要求,这对于AR/VR设备而言非常有价值。
许达文举例道,针对XR常用的SLAM功能,CNN很难实现比如墙之类的无纹理特征场景识别,Transformer可以准确识别。在地点识别和匹配上所需要的SVT-Net也是Transformer的强项。另外语义的分割识别,也是Transformer的一大强项。而在三维重建功能上,由于不一定每个环节都可以拍到,因此也需要Transformer。
由于采用专用加速以及独立的电源管理架构,SH1580的功耗在空闲模式时仅有46mW,超长待机模式下功耗则为6mW。
许达文表示,SH1580有两种应用场景,一种是支持单路输入的单芯片轻量级方案,同时也可以作为协处理器,通过DP接口与高通SoC连接。