苹果在今年WWDC上发布了Apple Intelligence,确认各操作系统都要引入生成式AI特性。这对消费电子领域的诸多市场玩家而言是个大事件。因为苹果作为PC、智能手表、智能手机等领域的标杆,新增特性向来是其他竞争者的学习对象。
虽然苹果大谈AI PC和AI手机的时间点相较其他参与者晚了半年,但苹果在AI上布局,从芯片到中间件,走得相对还是比较早的(比如2022年苹果芯片就支持了)——只不过苹果的AI策略总给人一种力道不足的感觉。
国外分析机构显示,苹果购买数据中心级别的英伟达显卡数量相比科技行业同级别竞争对手完全不值一提,采购量甚至都排不进前10。这对一家市值万亿的科技公司而言属实有点儿奇怪。
这篇文章就从仅有的公开信息,谈谈苹果的AI布局——不单是表面看到的AI PC和AI手机那么简单。
有关Apple Intelligence,AI在哪儿?
照例回顾一下苹果已发布,但还未正式推送(且现状看来中国大陆暂时不会得到Apple Intelligence的大部分能力)的果味AI能力究竟有哪些花样。
在Apple Intelligence支持列表中的苹果设备,更新iOS与macOS新版本以后,具备的AI特性包括备忘录语音转文字、AI照片后期与编辑、Spotlight搜索更快...这些都没什么新鲜的。
表现生成式AI特性的,包括有写作工具、邮件中的增强功能——如收发邮件的关键总结和邮件撰写回复建议;系统通知的智能总结;通话内容转写与总结;更多样化的文生图、基于自然语言的照片与视频搜索;还有Siri强化——学习屏幕上显示的内容,可根据上下文、用户背景信息和使用习惯,更智能地响应用户需求...
谈得更具体,苹果的生成式AI实现相比竞争对手,由于苹果有着全盘掌控生态的能力,所以在系统中的整合度会显著更高。
所以Apple Intelligence因此能做到不少其他市场参与者无法做到的特性,比如说app之间的协作:在朋友过生日的时候,系统能识别相册中好友的照片,并智能生成以该好友为主题的生日照片,后直接发给好友;甚至Siri能从你的相册中找到你的驾照照片,并在有表单填写需要时,直接为你填写驾照号码...
另外由于深入整合到操作系统,所以在交互方面也有所谓的“行为智能”。比如Siri基于上下文信息能够预测用户接下来要做什么,像是基于邮件中提到的航班时间,提示用户航班计划;或者获取用户在备忘录中写的用餐信息,提示用户要按时到达餐馆等等...本文不再一一列举。
从苹果官方公布的信息来看,苹果对待AI的态度和这家公司做其他消费电子产品类似:虽然苹果也在云侧AI上接入了OpenAI,但整体仍更倾向于用自己的东西。比如其机器学习框架是自己研发的AXLearn;最令人意想不到的应该是据说苹果搭建了基于自家M2 Ultra芯片的AI服务器。
。报道中指出苹果用M2 Ultra芯片搭建自己的AI服务器,这是基于分析师的供应链信息。据说当时富士康正组装采用M2 Ultra的苹果AI服务器;而且今年晚些时间还计划组装基于M4系列芯片的AI服务器。
今年6月份的WWDC开发者大会上,苹果也基本确认了构建自有数据中心栈。,苹果的AI服务器会采用自家芯片和操作系统。
不过苹果并没有说用了什么样的芯片、什么样的操作系统。苹果在技术宣传上一向模糊,当时只提到Private Cloud Compute(私有云计算)的AI特性。这一云上环境据说能更好地跑AI模型——苹果将其称为“将Apple Silicon的能力和安全带到数据中心、为用户构建的服务器硬件”。
基于M2 Ultra的AI数据中心?
在服务器上用自家芯片和操作系统符合苹果垂直整合供应链的常规逻辑。今年3月,Sumit Gupta入职苹果成为云基础设施负责人——此人以往的工作经历包括最早参与英伟达加速计算,且在IBM从事AI相关工作,以及后续加盟谷歌AI基础设施团队——涉足的产品包括谷歌TPU和数据中心CPU,AI硬件方面具备相当的工作经验。可见苹果在构建AI基础设施方面还是相对认真的。
苹果会用其自家芯片加强数据中心的性能,并强化依赖于云的AI工具。因为虽然苹果更倾向于将AI负载放在用户端侧本地去跑——尤其考虑到个人隐私,更复杂的AI特性还是需要依托于云的。
但M2 Ultra是面向Mac Studio这类PC或个人工作站设备的SoC芯片;它不是专用的AI加速器,其上还有大量非NPU和GPU的逻辑电路。这则传言真的靠谱吗?
过去几个月,国外较多媒体报道了苹果当前正就M系列处理器的生产制造做进一步的上量。SemiAnalysis分析文章中提到上量的主要就是M2 Ultra。M2 Ultra作为应用于Mac Studio和Mac Pro设备的高端处理器,在消费用户端的需求始终保持相对稳定。而且从市场大环境来看,PC设备暂时也没有大规模放量的趋势。
那么有较大概率,M2 Ultra还真有可能用于驱动苹果的AI服务器。据说苹果的数据中心短期内就做了双倍扩张——有媒体还公布了苹果数据中心的卫星俯瞰图,并断言明年就会有更大规模的数据中心集群上线。
但从各角度来看,M2 Ultra都不是面向AI数据中心特别好的芯片选择。可能M2 Ultra比较符合AI数据中心需要、或者令它看起来像是数据中心处理器的两个关键部分:先进封装、高内存带宽。
有关M2 Ultra的先进封装技术,电子工程专辑针对其所用的。这是一种采用硅桥(Silicon Bridge)实现两片die互联、来自台积电的2.5D封装方案。M2 Ultra用的也是这种方案。
苹果公布的数据是,M2 Ultra总共1340亿颗晶体管——单就规模来看是远超英伟达H100单芯片的。实际上,在整个PC市场上也很难找到此等规模的处理器。加上数据中心大芯片普遍爱用2.5D/3D先进封装,气质类型上M2 Ultra还是很像数据中心才用得起的芯片——论财大气粗,舍苹果其谁。
而在内存带宽方面,M2 Ultra配备统一内存架构,加上是由两片M2 Max组合而成,标称达到了800GB/s的内存带宽。这也是绝大部分PC处理器望尘莫及的;且单纯就数据中心CPU的内存带宽角度来看,这个数字也算得上优秀。
但可能我们所知M2 Ultra符合数据中心AI处理器芯片的优势项也就仅限于此了。
苹果为什么不用英伟达显卡?
实际上,即便是苹果引以为傲的内存带宽数字,在显卡界也不怎么够看——面向消费市场的游戏独立显卡就能轻易达到这样的带宽数字,虽然英伟达有在显存容量上节约成本的优良传统……而在数据中心市场,专业图形卡以及像H100/H200这样的加速卡弥补显存容量问题的同时,在显存带宽方面远超M2 Ultra。
真正的问题是,从并行计算加速角度来看,M2 Ultra的浮点运算和AI性能或许在PC领域称得上不错;但到了数据中心市场,大概就只能靠边站了。英伟达H200的显存带宽4.8TB/s,显存容量141GB——而且是HBM3e,FP32算力67 TFLOPS,Tensor core的FP16算力1979 TFLOPS,INT8算力3958 TOPS;
再看看M2 Ultra内存带宽800GB/s,容量192GB,虽然特别配备了NPU——但仅两位数的TOPS算力数字,以及GPU的FP32算力27.2 TFLOPS...就知道M2 Ultra在真正的数据中心加速器面前有多么无力。从直觉判断,M2 Ultra毕竟还是有大量晶体管用在了非GPU/NPU部分。即便H100/H200成本和售价也更高,但从AI服务器单位性能所需的成本,或每1美元可获取的性能角度来看,M2 Ultra也能被甩出几条街。
另一个关键问题是大模型时代的AI负载往往是跨芯片、跨机架乃至跨节点的。虽然不清楚苹果在设计M2 Ultra的微架构时有没有专门考虑过互联和算力扩展问题,即便有过考量(如M2 Max的UltraFusion),作为主要面向消费市场的芯片,要在芯片间的互联效率上比肩NVLink就完全不现实了,和其他非英伟达解决方案也存在差距。
有关苹果搭建AI基础设施为何没有选择英伟达显卡,部分媒体猜测可能在于苹果与英伟达的陈年往事,包括旧日官司、相关用户的产品纠纷等——想必关注电子科技行业古早历史的读者不会陌生。这大概是个原因,但不是全部。
就AI模型训练的角度来看,苹果选择了牵手谷歌。7月份苹果发布了一份研究paper,题为“(苹果智能基础语言模型,AFM)”,其中提到苹果的生成式AI模型训练选择使用谷歌TPU。这和Sumit Gupta今年3月份的入职完全对得上;何况还有AXLearn框架是基于JAX计算库等客观原因。
所以在模型训练上选择谷歌的AI基础设施大概是苹果一早就规划好的。谷歌TPU v4和v5是开发AFM模型的AI加速芯片。服务器侧的AFM-server用了8192颗TPU v4芯片训练;设备端30亿参数规模的AFM-on-device模型用2048颗TPU v5训练得到。
Paper中还提到,这两个基础模型是苹果生成式模型家族中的一部分。基于AFM语言模型,苹果还做了像是编程模型——融入到Xcode中;当然还有生图的diffussion模型等。对于苹果在AI模型训练、优化方面感兴趣的读者,可以去看看这份paper。其中也给出了不少AFM模型与竞品的比较:苹果认为自家模型优于Meta, OpenAI, 谷歌这些对手同规模的产品。
模型训练的基础设施基于谷歌TPU,是不是和此前传言苹果用M2 Ultra搭建AI服务器相矛盾呢?应当也不是。这篇paper明确提到了,训练得到的模型一边跑在iPhone、iPad、Mac之类的端侧设备上,一边还要跑在Private Cloud Compute服务器上——也就是现在很流行说的“端云协同”嘛。而这个所谓的私有云计算服务器就是个“Apple Silicon服务器”。
即便它未必是传言中的M2 Ultra,也至少是Apple Silicon——就传统意义上的AI推理效率来看,M2 Ultra仍然和英伟达Hopper架构的推理GPU相去甚远,如前文分析的那样。一方面这可能和苹果热衷于垂直整合,以及更倾向于一手包办有关;另一方面,以苹果对自家生态的掌控能力,Apple Intelligence的诸多特性是要将AI渗透到整个生态中的。
有分析师认为,因为苹果所有共享底层的完整系统、软件和服务栈都跑在自家芯片上:为达成自下而上的AI能力,操作系统、应用和数据在本地跑一份,在云上也近似地跑一份。就如前文提到的,某些生成式AI特性,诸如通知、文档、通话内容总结,还是需要云的参与。那么原生或近似原生的苹果全栈环境是最友好和高效的。
在需要确保数据和隐私安全、不让敏感数据跑在第三方的前提下,让用户数据跑在采用自家芯片的AI数据中心里是理所应当的。
虽然我们不知道苹果AI技术部署的具体堆栈和架构,但对于上述评论,苹果透露了少许细节信息。比如说这个Private Cloud Compute集群里会有和iPhone一样的硬件安全技术,如Secure Enclave, Secure Boot;并且其上运行的操作系统是“iOS和macOS为基础的加固的子集(a hardened subset),在确保尽可能小的攻击面的同时,为LLM推理负载量身定做”。
安全特性方面,还格外强调了这套基础设施是连数据中心运维和管理员都受到了大量限制的,完全无法访问终端用户给到模型的信息和数据。
这部分不是要谈苹果用于跑AI的云有多么安全,而在于它可能的确提供了一个类似传统苹果生态的环境,并基于用户的上下文信息进行云侧的AI推理。而这么做大概率就需要以Apple Silicon苹果芯片作为底层支撑。
如果苹果在后续AI基础设施运营中坚持采用自家芯片——且当前的这颗芯片的确是M2 Ultra,则基本也可以确认M2 Ultra是个短期过渡方案。毕竟从各方面来看,M2 Ultra都不大能胜任AI HPC的工作;而且苹果还可能需要更多互联、存储相关的技术储备或IP授权。
当然,现阶段我们还很难对苹果自古以来喜好做封闭生态,并打算将此延续到生成式AI时代会产生什么样的后果发表评论——毕竟这其中的变数和现实问题还非常多样。比如单是基于这样的思路,怎么在中国推进哪怕是有本地特色的Apple Intelligence都是个巨大的问题。
还要考虑当苹果期望将AI特性相关的更多控制权掌握在手时,更多三方厂商的合作问题——无论是应用开发者还是为开发者提供服务器的其他AI服务供应商;苹果将如何权衡这其中的控制权,乃至对整个生态的控制问题。这也涉及到了生成式AI作为增值服务的商业模式,相关苹果与开发者的收益分配。
另外,作为全球最大且用户基础最为广泛的消费电子企业,当其iPhone和Mac的Apple Intelligence服务全面上线时,AI基础设施将经受全球海量用户的访问和请求压力,这是苹果自己及作为合作方的OpenAI或谷歌可能都需要做好准备的。或许这也将成为生成式AI全面亲近普通消费用户的第一份颇有分量的答卷。(话又说回来,OpenAI的基础设施不就是英伟达的吗?…