不知不觉之间,我们已经距离ChatGPT引爆全网的爆发点已经过去了一年多。随着OpenAI证明了LLM(大语言模型)AI行得通之后,目前市场上的各类LLM 已经如雨后春笋般争抢涌出。不言自明,现在的大模型已经成为AI领域的一个重要趋势。据数据,2023年,我国AI大模型行业市场规模为147亿元,预计2024年将增长至216亿元。随着技术的不断进步和应用场景的拓展,相信AI大模型将在未来发挥更加重要的作用,推动中国人工智能产业的持续发展和创新。本篇文章,就重点针对我国以及全球的大语言模型的实力和其市场应用情况做一个相对全面的梳理和分析,让我们一起拨云见日,看清这百家争鸣的大语言模型AI市场。
本文引用地址:大语言模型,是一种基于海量文本数据训练的深度学习模型,能够生成自然语言文本,深入理解文本含义,并处理各种自然语言任务,如文本摘要、问答、翻译等。它的底层使用多个转换器模型,这些转换器由具有自注意力功能的编码器和解码器组成,可以从一系列文本中提取含义,并理解其中的单词和短语之间的关系。目前被广泛应用与AI 机械学习领域,就从目前的使用效果上来看,是智能水平最高的AI 产品之一。
1 浪潮之下,国内外大语言模型的发展现状
我们纵观全球,目前重要的大语言模型产品有:OpenAI的ChatGPT、百度的文心一言、阿里巴巴Qwen-Max、谷歌的PaLM 2 AI 模型、Meta 的LLaMA模型等等。我国大语言模型从数量上看,百家争鸣,但是对于大语言模型的性能上来看,我国整体上成追赶态势。
根据上海市人工智能实验室发布了2023 年度大模型评测榜单。经过大模型开源开放评测体系“司南”(OpenCompass2.0)对国内外主流大模型的全面评测诊断,中英双语评测前十名揭晓:OpenAI 研发的GPT-4Turbo位居第一,排名第二至第五的依次是:智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0、阿里巴巴Qwen-72B-Chat。
在中英双语评测中,OpenAI的GPT-4 Turbo以显著优势位居榜首。这一结果再次证明了OpenAI在大模型技术领域的领先地位,也反映出其在复杂推理和综合能力方面的卓越表现;而在详细分析评测结果时,我们发现国内大模型在中文场景下展现出了独特优势。这得益于国内企业在中文语言理解、中文知识和中文创作等方面的深厚积累。在一些维度上,国内商业模型甚至实现了对GPT-4 Turbo 的超越,这充分展示了国内大模型在特定领域的竞争力。
如果说,从国内机构的测试结果来看,我国的大语言模型的性能似乎“还可以”,但是在剔除了中文优势等特定的优势来综合评价之时,我国的大语言模型对比其他国外的模型,特别是来自美国的同类产品之时,其劣势就十分明显了。
在人工智能和自然语言处理领域,SuperCLUE 基准测试是衡量模型性能的重要指标之一。在近期的测试之中,目前世界上最好的大语言模型毫无争议的是来自OpenAI的GPT4,其以高达87.08 的得分遥遥领先,充分展示了其在自然语言处理领域的强大实力。Claude2和GPT3.5也分别以72.46和71.12的得分紧随其后,展现出了不俗的性能。
相比之下, 国内代表模型在SuperCLUE基准测试中的得分虽然普遍较低,但也取得了一定的成绩。vivoLM和Moonshot分别以70.74和70.42的得分位列国内模型前列,与其他国内模型相比表现出了一定的优势。文心一言4.0、SenseChat3.0等模型也展现出了良好的性能,但与国外模型相比仍有一定的差距。
面对目前的不小差距,笔者借用上海人工智能实验室领军科学家林达华教授的话来说:“大模型评测的最大意义并不在于榜单名次,而是通过评测结果来指导改进工作。”那么接下来我们就来进一步看看,ChatGPT为什么行?
2 ChatGPT为什么能如此成功?
首先,我们要承认,ChatGPT是一次在海量资源加持的前提之下,团队保持初心,并且严格按照长期主义思想指导的一次成功。自2015年底OpenAI成立,到2018年初代GPT诞生,再到2022年底GPT-3走向商业化,OpenAI的几位创始人,其初心十分明确,他们以造福全人类为宗旨,希望能够研发出能够安全可控,人类可以放心使用的高水平AI技术。在这一初心的指引下,OpenAl创始人兼CTO不断用第一性原理的思维定位研发方向,走出技术瓶颈,才让OpenAI得以成为今天通用AI领域的重要力量。
站在技术的角度上来说,OpenAI团队基于Transformer网络,使得机器人能够更好地模拟人类的语言行为,从而提高了交流的流畅性和准确性。ChatGPT的深度学习模型经过大规模的预训练,学习到了大量的语言模式和语法规则,我们以GPT-3为例,其训练数据达45TB,相当于阅读了数千万本文学巨著,再加上近乎“无限”的硬件平台支持,据国盛证券的测算,在训练阶段,微软Azure就为GPT-3准备的训练研发平台在2020年时共部署英伟达V100超过1万块,置换为A100,则所需GPU算力约为3000-5000块英伟达A100;而在正式投入运营之时,支持每日2500 万人访问量的巨大流量,在考虑算法优化后保守估计在1 万片A100 左右。巨大的资金支持+ 最好的硬件支持+ 优秀的人才团队,这一切造就了如今ChatGPT 的成功,让它成了AI 领域的“iPhone 时刻”。
而站在市场化的角度来说,ChatGPT的成功也在于其广泛的应用场景。无论是作为智能客服解决用户问题,还是作为个人助手帮助用户管理日程,ChatGPT都能提供精准、个性化的服务。在医疗、教育、电商、旅游等多个行业,ChatGPT 也展现出了巨大的应用价值。例如,在医疗领域,ChatGPT能够帮助医生进行疾病诊断,提供治疗建议,提高治疗效果;在教育领域,它可以作为学习辅助工具,为学生提供答疑解惑,提高学习效率。这些广泛的应用场景,不仅使得ChatGPT 得到了市场的广泛认可,也为其带来了持续的发展动力。
根据国外Business.com 网站所发起的一次“您在工作中如何使用 chatGPT ?”调查显示,ChatGPT 在工作之中几乎被广泛的应用,书面沟通是ChatGPT 在工作场所中最流行的用途,占据了23% 的比例;创意帮助、研究和数据分析、内容创作和行政支持也是较为常见的使用场景,分别占据了18%、17%、13% 和13% 的比例。这些统计足见大语言模型无限的发展空间和潜力。
而另一项调查之中,也显示了大部分美国人对于ChatGPT 持十分乐于接受的积极态度。参加这项调查的人群一共1000 人,平均年龄37 岁,年收入中位数在70000~79999 美元之间。45% 的受访者是女性,55%是男性。其中白人占75%,7% 亚裔,9% 黑人,剩下的是其他种族背景。
使用ChatGPT 是一种懒惰的行为:14% 的人这么认为,73% 的人不这么认为;
工作中使用ChatGPT 是一种欺骗,并不是真正工作:16% 的人这么认为,71% 的人反对这个观点;
在工作中使用ChatGPT 将带来低质量的工作绩效:13% 的人这么认为,60% 的人反对这个观点:ChatGPT 抢走了老实人的工作:19% 的人这么认为,58% 的人反对这个观点;
使用ChatGPT 的工作者更聪明地工作,而不是更辛苦地工作:74% 的人认可这个观点,10% 的人反对这个观点。
我们最后总结一下,ChatGPT 的成功是技术、人才与应用共同推动的结果。它不仅在技术上实现了重大突破,也在应用上展现出了巨大的潜力。而OpenAI 团队也即使抓住了机会,就目前ChatGPT 的商业模式来看,其已经清晰地确定了API、订阅制和战略合作(如嵌入微软Bing、Office 等软件)三种营收方式,并在用户数据积累、产品布局和生态建设方面取得了显著领先。
3 我国大语言模型能否追赶?
上文提到,我国国内目前存在着许许多多的大语言模型,呈现百花齐放的态势。百度首发了“文心一言”,360、阿里和商汤等公司也相继发布了自己的大语言模型,如360 的大语言模型、阿里的“通义千问”和商汤的“商量”。尽管在对话和文本生成的直观体验上,ChatGPT表现出色, 但Google等国外大厂克隆ChatGPT的技术壁垒并不高。目前,它们的暂时落后主要源于公司战略和技术理念的差异,选择了不同的技术路线。然而,随着各家在技术探索和新方法应用上的不断进步,对GPT 系列模型实现赶超的可能性仍然存在。对于百度等国内大厂来说,数据、算力和工程化能力等方面的不足是当前的短板,因此在短期内难以赶超国外领先的大模型,更多地扮演着跟随者的角色。但从长远来看,国内AI 全产业链的整体进化将是实现赶超的关键。
从国家层面来说,我国也有充足的动力去推动大语言模型领域的发展。就目前来看,我国高度强调自主可控,这是保障网络安全、信息安全的前提,自研基石模型具有高度战略意义。
技术上壁垒并不高、国内也有推动其发展的重要力量。有行业专家预测,到2027 年,中国的语言大模型市场规模有望达到600 亿元。此外,生成式人工智能的企业采用率也呈现出强劲的增长势头。笔者认为,未来的国内大语言模型市场,将分化为通用基础大模型、垂直基础大模型、应用开发和工具层厂商四大类。由于上文提到,资金、人才、数据、算力等等的客观条件的存在,通用基础大模型是只有少数厂商才有资格入场的游戏,而其他更多的大语言模型产品,不是在大浪淘沙之中被筛选淘汰,就只能退而求其次,深耕垂直基础大模型领域。而在可以预见的未来,随着大模型的通用和泛化性提高,掌握通用基础大模型的巨头企业可能会逐步侵占垂直领域厂商的市场份额。这种竞争压力从长期来看确实不容忽视。然而,大模型与产品的结合,特别是在非检索或开放域交互等复杂场景中,并非简单的技术叠加。它需要深度融合垂直领域的数据、应用场景和用户反馈,以及强大的端到端工程化能力。这意味着,垂直领域与应用层的厂商在面临巨头挑战的同时,也拥有独特的竞争优势和发展空间。因此,最终,市场之中还将催生出一批专注于提供开发平台服务的工具型或平台型厂商。这些厂商将帮助客户更便捷地实现AIGC 应用的开发与落地,进一步推动整个产业的繁荣与发展。
(本文来源于《EEPW》2024.5)