阿里云发布飞天智算平台,可将AI训练效率提升11倍

发布时间:2022-08-30  

飞天智算平台已在阿里内部广泛应用,支撑达摩院前沿AI和电商智能技术发展,并服务了小鹏汽车、深势科技、上汽集团、中国气象局、南方电网等机构和企业,支撑自动驾驶、新药研发、气象预测、工业能源等行业大幅提升AI训练效率。

据了解,该平台提供基于阿里云磐久基础设施的融合算力和大数据AI一体化平台整体解决方案,可以运行在X86、GPU、ARM等多种芯片类型的服务器上,实现“一云多芯”,并以最高10倍IO优化和5倍通信性能优化,实现90%的千卡并行计算效率。

绿色技术方面,飞天智算在技术减排、能源结构优化、区域布局优化、供应链减碳以及资源利用优化五个方面来降低单位算力的碳排放。在技术减排方面,通过液冷、电源技术以及智能运维等方式降低能耗,PUE最低可达1.09。

飞天智算平台已在阿里内部广泛应用,支撑达摩院前沿AI和电商智能技术发展,并服务了小鹏汽车、深势科技、上汽集团、中国气象局、南方电网等机构和企业,支撑自动驾驶、新药研发、气象预测、工业能源等行业大幅提升AI训练效率。

据了解,该平台提供基于阿里云磐久基础设施的融合算力和大数据AI一体化平台整体解决方案,可以运行在X86、GPU、ARM等多种芯片类型的服务器上,实现“一云多芯”,并以最高10倍IO优化和5倍通信性能优化,实现90%的千卡并行计算效率。

绿色技术方面,飞天智算在技术减排、能源结构优化、区域布局优化、供应链减碳以及资源利用优化五个方面来降低单位算力的碳排放。在技术减排方面,通过液冷、电源技术以及智能运维等方式降低能耗,PUE最低可达1.09。

广告

同时,开发人员可以在平台上进行数据存储、数据治理、数据分析、模型开发、模型训练与推理的工作。并提供了预训练模型,以及语音,图像、自然语言处理、决策等领域的模型能力,以方便开发者更好的加速AI应用的开发。

目前,该平台正在支撑建设两座超大规模智算中心。其中,张北智算中心建设规模为12 EFLOPS(每秒1200亿亿次浮点运算)AI算力,将超过谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心。乌兰察布智算中心建设规模为3 EFLOPS(每秒300亿亿次浮点运算)AI算力,位于“东数西算”内蒙古枢纽节点。

阿里云智能全球销售总裁蔡英华表示,智算不仅在于规模大,更是需要绿色、高效并且具备产业实践。计算是一个庞大的复杂系统,没有体系化的核心技术能力,堆硬件是堆不出算力的,更无法带来实际的产业价值。

据了解,智能计算不同于通用型计算,需要海量数据对AI模式进行训练,算力被损耗在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有40%左右。这导致了智能算力成本高昂,制约了产业发展。阿里云通过体系化的技术创新,改变了智能计算的损耗难题,将千卡并行计算效率提升至90%以上。

例如,在通信技术上,阿里云采用高性能自研Solar-RDMA网络,实现端对端最低2微秒延迟,配合阿里云自研的无阻塞通信技术,让计算过程中的数据交换速度最高提升5倍。同时,自然风冷、液冷等绿色技术的应用,让智算中心的能耗降低,PUE最低可达1.09。

在AI开发层,阿里云提供大数据+AI一体化平台支撑开发与运维全流程。尤其在模型训练环节,提供分布式训练框架,可以对分布式策略进行自动组合和调优,将训练效率提升了11倍以上。此外,阿里云为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,可将推理效率提升6倍以上。

不久前,小鹏汽车基于飞天智算在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS,是国内最大的自动驾驶智算中心,将自动驾驶模型训练提速近170倍。毫末智行基于飞天智算,实现128卡并行效率超96%,使自动驾驶模型训练成本降低62%,训练速度提升110%,让模型迭代周期大幅缩短。

在生命科学领域,深势科技采用飞天智算平台之后,将集群性能优化提升超过100%,让分子动力学仿真模拟训练效率提升了5倍。在工业领域,智己汽车运用高性能计算将工业仿真的效率提升了25%,智能驾驶训练效率提升了70%,加速了新车型的研发上市。山东德州电力通过AI进行复核预测,准确率达到了98%,耗时从1小时缩短至几分钟。

在城市治理领域,四川成宜高速通过数字孪生进行车路协同优化使事故率降低60%。重庆水务通过遥感数据与仿真推演实现水利调度预测准确性高达95%;南方电网与中国气象局利用智算能力提升气象预报的准确性与稳定性。

此外,飞天智算还支撑了阿里巴巴的人工智能实践,支撑阿里AI日均1万亿次调用,服务全球10亿人。其中,拍立淘训练速度提升了200倍,10亿张图片全量训练时间从2.5个月缩短到8小时。达摩院大模型M6仅使用512张GPU,在10天内就完成了10万亿参数模型训练,能耗仅为GPT-3在同等参数规模下的1%。

同时,开发人员可以在平台上进行数据存储、数据治理、数据分析、模型开发、模型训练与推理的工作。并提供了预训练模型,以及语音,图像、自然语言处理、决策等领域的模型能力,以方便开发者更好的加速AI应用的开发。

目前,该平台正在支撑建设两座超大规模智算中心。其中,张北智算中心建设规模为12 EFLOPS(每秒1200亿亿次浮点运算)AI算力,将超过谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心。乌兰察布智算中心建设规模为3 EFLOPS(每秒300亿亿次浮点运算)AI算力,位于“东数西算”内蒙古枢纽节点。

阿里云智能全球销售总裁蔡英华表示,智算不仅在于规模大,更是需要绿色、高效并且具备产业实践。计算是一个庞大的复杂系统,没有体系化的核心技术能力,堆硬件是堆不出算力的,更无法带来实际的产业价值。

据了解,智能计算不同于通用型计算,需要海量数据对AI模式进行训练,算力被损耗在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有40%左右。这导致了智能算力成本高昂,制约了产业发展。阿里云通过体系化的技术创新,改变了智能计算的损耗难题,将千卡并行计算效率提升至90%以上。

例如,在通信技术上,阿里云采用高性能自研Solar-RDMA网络,实现端对端最低2微秒延迟,配合阿里云自研的无阻塞通信技术,让计算过程中的数据交换速度最高提升5倍。同时,自然风冷、液冷等绿色技术的应用,让智算中心的能耗降低,PUE最低可达1.09。

在AI开发层,阿里云提供大数据+AI一体化平台支撑开发与运维全流程。尤其在模型训练环节,提供分布式训练框架,可以对分布式策略进行自动组合和调优,将训练效率提升了11倍以上。此外,阿里云为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,可将推理效率提升6倍以上。

不久前,小鹏汽车基于飞天智算在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS,是国内最大的自动驾驶智算中心,将自动驾驶模型训练提速近170倍。毫末智行基于飞天智算,实现128卡并行效率超96%,使自动驾驶模型训练成本降低62%,训练速度提升110%,让模型迭代周期大幅缩短。

在生命科学领域,深势科技采用飞天智算平台之后,将集群性能优化提升超过100%,让分子动力学仿真模拟训练效率提升了5倍。在工业领域,智己汽车运用高性能计算将工业仿真的效率提升了25%,智能驾驶训练效率提升了70%,加速了新车型的研发上市。山东德州电力通过AI进行复核预测,准确率达到了98%,耗时从1小时缩短至几分钟。

在城市治理领域,四川成宜高速通过数字孪生进行车路协同优化使事故率降低60%。重庆水务通过遥感数据与仿真推演实现水利调度预测准确性高达95%;南方电网与中国气象局利用智算能力提升气象预报的准确性与稳定性。

此外,飞天智算还支撑了阿里巴巴的人工智能实践,支撑阿里AI日均1万亿次调用,服务全球10亿人。其中,拍立淘训练速度提升了200倍,10亿张图片全量训练时间从2.5个月缩短到8小时。达摩院大模型M6仅使用512张GPU,在10天内就完成了10万亿参数模型训练,能耗仅为GPT-3在同等参数规模下的1%。

文章来源于:电子工程专辑    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>