在智能化的道路上——欲成其事,必先利其器。
自从几年前,特斯拉筹建其独立的智算中心Dojo(道场)后,有志于智能驾驶乃至于次世代发展的车企,都已经讲目光投向该领域。
在国内,去年8月,小鹏汽车在乌兰察布建成智算中心“扶摇”;今年1月初,长城汽车旗下毫末智行,宣布“雪湖·绿洲”智算中心投入使用。
至于其他的那些对手,也都在利用各种公云资源,跻身此赛道。
尽管各家在发布设施前,都曾宣称其为“最强”,也实不知做成短视频送去抖音审,最后哪个才能过。
但是有一点是可以肯定的,直到上月末乃至此时,吉利汽车集团在湖州长兴县部署的吉利星睿智算中心,在性能上于国内堪称首屈一指。
吉利星睿,湖州的新“特产”
今年2月末,笔者有幸受邀,前往湖州长兴县,参加吉利、阿里联合举办的,星睿智算中心启动活动。
为什么要选湖州长兴县,这是我在启程前曾经考虑过的问题。毕竟就个人认知而言,在最近十几年间,这边都有一种,仿佛江浙沪的角落一般的味道。
然而,当我驾车自沪渝高速南太湖互通闸道驶出时,立即就意识到,这个问题已经无需解答了。
彼时,一股强劲的东南风自侧后吹来。其势之猛,使得车身都为之一晃。散热历来是计算中心的重要问题之一。而如此大风,确实是建设计算中心的理想地点。
环太湖地区多风,这几乎是江浙沪的常识。每当一年气温转暖,以太湖为中心的冷高压逐渐生成,来自湖上的风开始不断向四周吹拂。
又加之长兴县东阙紧靠着地处太湖南岸平原中心位置的南云峰,这座海拔521.5米的太湖南岸最高峰挡住了相当一部分气流,迫使其向两侧吹拂。
吉利星睿智算中心,就背靠着南云峰迎风面的西侧一座名曰凤山的小丘。凭借孤山带来绕流效应,这里常年刮着大风,在江浙一带确实是部署计算中心的理想地点。
几年前,阿里集团在河北省张北县小二台镇建设阿里数据港张北数据中心,便是充分考虑了当地的多风以及低气温特点。
尽管江浙地区由于纬度和气候问题,并不能指望有张北县低的平均气温状况,但环太湖地区常年吹拂的大风,对降低计算中心散热系统能耗,确实也有显著的作用。
此外,这里毕竟是毗邻一、二线中心城市。湖州市中心在30分钟车程之内,而往东3小时车程能进到上海市区,向着东南则2小时则可直奔杭州。
而面临产业升级压力、GDP考核等问题的地方政府,对于吉利汽车集团愿意在生产基地之外,进一步在当地部署计算中心一事,自然是高度欢迎。
所以在交付仪式当天,湖州当地众多市、县领导,也专程前来参会齐集一堂,其重视程度可见一斑。
毕竟,这是联通、北斗等国字头背景企业外,第一个部署在湖州境内的车企专属大规模计算设施。
吉利星睿智算数据中心的前身,是吉利控股集团在长兴县设立的企业级数据中心,主要任务是提供云容器服务,用于公司内部运营。
比如网站、OA办公软件,办公云等等。2021年12月,吉利星睿智算中心正式立项,并且在2022年7月正式开始升级建设。
而为星睿智算中心提供建设与后续运维服务的,则是著名的云计算服务提供商,阿里云。
吉利星睿智算中心,项目总投资约10亿元。计算中心占地总面积52.12亩,规划机柜5000架,一期现已建成标准5kW机柜2520架。
星睿智算中心的各项性能,在目前国内同类计算中心中处于领先地位——全系统云端总算力峰值每秒81亿亿次、最大通信网络传输速率为每秒800GB。
特别需要提一句的是,其存储带宽达到每秒4.5TB,是业界普遍采用的以太网的400倍。
目前,星睿智算中心还规划有二期工程。一旦二期项目建成落地,即规划的5000个机柜全部部署到位,则系统总算力规模将突破EFLOPS,达到惊人的120亿亿次。
作为智能汽车的云端支持系统,届时星睿智算中心可支撑的在线车辆并发数,达到350万规模,同时数据存储规模将达EB级别。
智算中心的时代
在这里需要特别强调的是,吉利星睿这个“智算中心”的定位。其有别于传统数据中心、超算中心。
智算中心是一个近两年来逐渐兴起的概念。
“智算”,代表设施并非传统意义上,以通用处理器(CPU)为主的超级计算机设施。其总算力中会有相当一部分由A.I芯片构成,专为人工智能项目服务的部分。
所以,理解星睿重要性,乃至于智算中心价值的关键点在于,什么是A.I芯片。
众所周知,人工智能相关运算,有其特殊性。无论是各种语音信号的识别,还是各类图形图像的判别,抑或是目前流行的,各种基于人工神经网络的深度学习训练。计算机在运行这类任务时,通常面临着任务细碎烦琐,但并行任务数量巨大的问题。
在这类情况下,内核具有较强Control(控制器)以及算术逻辑单元(ALU)的CPU,通常效率非常的差。
之所以差,是因为A.I项目具有其特殊性,往往不存在复杂的运算任务,但一般会存在同时并行的海量的“小数据”需要进行运算。这就意味着,CPU内少量高性能控制器+ALU的组合因为受制于数量,无法高效地并行处理这类由细碎项目组成的任务。
而所谓得A.I芯片在构造上,和CPU可以说是反其道而行之——芯片内部单个控制器以及ALU的面积都非常小,但总数却很多。甚至一级缓存也被拆成小块,分别配给了各个控制器模块。
这些显著区别于CPU的特性,使得其在处理A.I项目时,显得得心应手。举个简单的例子:汽车智能驾驶。
汽车的智能驾驶功能的实现,通常仰赖于多种外部传感器对车辆周边以及自身态势的感知。在自动驾驶域控制器的协调下,实现对当前场景的最优策略。
而在这一过程中,视觉传感器在回送图像信号时,系统会将视频信号拆解成帧来判读,以理解整幅图像各个区域图形的意义——或是交通标志、或是行人、或者是其他机动车辆等等。
这就意味着,系统会面临同时处理大量细小图像区块单独识别的问题。
尽管每个图形都不复杂,但一张图往往由几十上百的对象构成,而每秒又有几十张的图像(视车载视觉传感器具体刷新率而定)。
讲到这里相信许多人已经明白了,A.I芯片实际上就是一类特别优化过的图形处理器(GPU)。
毕竟,这类工作在很大程度上,也可以被视为另一种类型的大量图形处理任务。而即便其执行的任务和图像无关,比如语音识别等,其同样面临着大量声波识别和滤除等复杂多线程问题。
而各种基于神经网络的机器深度学习训练,同样需要面对复杂多线程问题。
理解了何为A.I芯片,自然也也就解决了对智算中心定位的认识。
从现阶段产业发展的角度来看,人工智能有三大驱动力:数据、算法和算力,这些都与计算密切相关。对于车企来说,想要在智能驾驶方面有所发展,海量的仿真、巨量的数据收集是必不可少的。
在此大背景下,建设成规模的大型智算中心,显然能更快地完成自有模型以及算法的迭代和进化。
在智能驾驶研发领域,如果采用传统的本地模型训练模式,完成一千个智驾模型训练,需要大约3个月。而利用星睿智算中心充沛的A.I算力,同样的工作则只需要8个小时,研发效率提升达二百多倍。
当然,吉利星睿智算中心绝不是仅仅用于企业智能驾驶业务的推进,相关技术的研发。其同样可以执行超算中心所具有的各项功能,例如支持汽车研发等等。此外,吉利为用户提供的云端支持,也基于该中心。
作为“云、数、智”一体化云计算平台,能够实现吉利控股集团体系下,含航空航天、高清地图、智慧能量、智慧动力、智能架构、智慧出行在内的全生态数据合规共享,为汽车生态链的全部环节(监测、运行、OTA)提供研发和运营支撑。
此外,吉利还联合阿里,首创了算力智能跨池调度技术,计算资源相对中国头部公有云服务商现有技术提升至少20%资源利用率,进一步加速智驾模型研发及人工智能业务。
当然我们也不能忘记的是,在这一切背后,阿里的身影。上述提及的三家智算中心,除去字节跳动旗下火山引擎协助的雪湖·绿洲,星睿与扶摇,均出自阿里云的手笔。
实际上,那些暂时没有独立建设智算中心的主机厂,目前也大多在利用阿里云提供的公云,在进行着相似的工作。
作为全球第三,亚太第一的云服务提供商,阿里云几乎可以说是为中国新一代智能汽车,搭建起了“产房”。
在其中,以车企独立建设的智算中心的角度,星睿智算中心无疑是现阶段最强大者。
然而在汽车智能和网联的这条赛道上,最终决胜的关键,并不是掌握了多么强大的工具,而在于车企如何利用手中的工具,打造出锁定胜局的产品。