从基础能力到应用,大模型实测结果揭晓

发布时间:2024-06-11  

OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API;在中国市场,模型的通用性和泛化能力吸引了各大厂商布局,市场上的大模型/生成式AI产品纷至沓来。2024年5月,全球代表性AI技术供应商如OpenAI发布了更新的大模型GPT-4o,在文本、图像、音频和视频等多模态融合尝试方面展现出强大的能力,能够以这三者的任意组合进行输入和输出,Google也发布了大模型Gemini的最新功能、文生图模型Imagen3、对标Sora的文生视频模型Veo等。IDC观察到,在中国市场,从2024年第二季度开始,越来越多的AI技术供应商开始更新升级基础大模型及相关产品,新一轮的“百模大战”一触即发。

本文引用地址:

1718080691861972.png

实测方法

本次实测面向市场上主流的大模型技术供应商,产品必须是已经开放使用,并按照国家互联网信息办公室要求已经完成备案。测试的媒介主要是基于基础大模型的网页版的产品,IDC对参与厂商的产品表现分别进行测评。基础能力问题涉及问答理解类、推理类、创作表达类、数学类、代码类等;应用问题主要包含toC通用场景类和toB特定行业类,每一类单独计分。

1718080711628612.jpg

基础大模型产品实测结果评述

为对比国内外大模型的产品差异以及推动大模型/生成式AI相关产品的发展和应用,IDC成立产品测试团队,通过多个维度(如生成质量、使用与性能、安全与合规等)对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,并在审核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。

综合最终的得分情况,基础大模型产品能力处于第一梯队的有(梯队产品表现在同一均线,以下按照技术供应商首字母顺序排列):阿里通义千问/通义万相等通义系列生成式AI产品、百度文心一言/文心一格、科大讯飞讯飞星火 3.5 Max、OpenAI GPT4、商汤日日新SenseNova 5.0。

在所有的题目类型中,目前如问答理解、toC通用场景类得分率较高,数学类、推理类、代码类问题、行业应用类的准确率较低,需进一步优化。详细的测评结果展示如下:

1718080757765090.png

1718080757253176.png

IDC中国大模型产品测试团队表示,2024年产业界更加关注大模型和生成式AI的落地,生成式AI的进一步发展需要多种模态的大模型作为引擎。更为接近人类的思维方式,是未来大语言模型竞争的关键,技术供应商还需持续优化大模型在数学、推理、代码等问题以及在行业应用中的生成质量,提高生成的速度并降低大模型使用的成本,加快大模型技术的应用与普及。

1718080796958496.gif

免责声明

本文中的内容和数据均来源于IDC所发布的报告,所有内容及数据均为我公司所有。未经IDC书面许可,任何机构和个人不得以任何形式翻版、复制、刊登、发表或引用。

文章来源于:电子产品世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>