什么是架构?架构是上文中没有提到的一个概念,就是说这些旋钮并不是一字排开的,他们分成很多层,不同层级的旋钮之间有很多连接。这些层级和关联关系就组成了架构。比如说同样的十个旋钮,下图中左右两侧的架构是不同的。在参数量(旋钮的数量)和参数值(旋钮的刻度)一样的情况下,架构不同,也会产生完全不同的效果。
2022年对来说注定是不平凡的一年,这不吴恩达、Bengio等一众圈内大佬在接受DeepLearning.ai的采访中展望了2023年AI的发展趋势,还分享了自己的科研小故事。
还有不到3天,2022年就要过去了。
辞旧迎新之际,吴恩达、Bengio等一众AI大佬们在DeepLearning.ai聚在一起,展望了自己眼中的2023年。
作为DeepLearning.ai的创始人,吴恩达首先发表了欢迎致辞,并回忆起自己刚开始搞研究的那段岁月 ,为这场多位大佬参与的讨论开了个好头。
从北京冬奥会上支持多语言服务的智能机器人、AI手语虚拟主播到近日“方向盘后无人”车开跑,人工智能可谓大放异彩。以Generative Pre-trained Transformer 3(GPT- 3)为代表的大(Foundation Model)正在成为人工智能“新高地”。如何理解AI大模型?其发展主要经历了哪些重要阶段?AI大模型主要用于解决哪些问题?就业界关注的这些热点问题,《人民邮电》报记者分别采访了中国人民大学高瓴人工智能学院执行院长文继荣和中国信息通信研究院云计算与大数据研究所人工智能部副主任曹峰。AI大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。
谷歌于2018年10月发布的BERT模型是最为典型的基础模型,它利用BooksCorpus和英文维基百科里纯文字的部分,无须标注数据,用设计的两个自监督任务来做训练,训练好的模型通过微调在11个下游任务上实现最佳性能。
OpenAI在2020年5月发布的GPT-3则是一个自回归语言模型,具有1750亿参数,在互联网文本数据上训练得到的这一基础模型,可以使用提示的例子完成各式各样的任务,使用描述任务(如“把英文翻译成法语:”)加一个示例(如“sea otter => loutre de mer”),再给一个prompt提示(如“cheese =>”),GPT-3模型即可生成cheese对应的法文。这类模型正在成为主流的AI范式。
AI大模型是人工智能迈向通用智能的里程碑技术。深度学习作为新一代人工智能的标志性技术,完全依赖模型自动从数据中学习知识,在显著提升性能的同时,也面临着通用数据激增与专用数据匮乏的矛盾。AI大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性。
AI(人工智能)大模型相当于“超级大脑”,正成为人工智能“新高地”。AI大模型有望实现人工智能从感知到认知的跃迁,重新定义人工智能产业模式和产业标准,给部分产业带来重大变革。我国有较大的AI大模型应用市场,但发展过程中面临部分技术薄弱、人才稀缺、成本高昂等多重挑战,亟须对相关技术研发和产业布局加以引导和支持。
“学富五车”的“超级大脑”
——“不开心的话可以听点开心的歌,看看喜剧,也可以去运动,或者好好休息一下。”
——“心情不好是一种很正常的情绪,所以不用太过自责。”
针对“今天心情不好应该怎么办”这一问题,一个人工智能平台以不同的“人设”,给出了不同的回答。通过网址链接进入该平台,在“人设问答”区随机输入问题,机器可支持和扮演不同“人设”,对问题给出多角度答案。该平台正是基于AI大模型打造而成。
创新工场首席科学家、北京澜舟科技创始人周明介绍,AI大模型也称人工智能预训练模型,将海量数据导入具有几亿量级甚至十万亿量级参数的模型中,机器通过做类似“完形填空”等任务,深度学习数据中蕴含的特征、结构,最终被训练成具有逻辑推理和分析能力的人工智能。
通俗地说,AI大模型相当于做了无数套关于各领域知识练习题、模拟题的“超级大脑”,深谙各领域知识内在逻辑和解题思路,既能理解人类世界的知识体系,也可能产出新的知识。
2018年起,人工智能进入“大模型时代”,由重复开发、手工作坊式人工智能,即“一千个应用场景就有一千个小模型”的零散、低效局面,走向工业化、集成化智能的全新路径,以一个大模型“走天下”,为通用人工智能带来曙光。比如,为生产智能音响,各个品牌竞相开发各自的AI小模型,未来各品牌只需在同一个AI大模型基础上开发即可。
从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。
2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元;
2021年1月,谷歌发布首个万亿级模型Switch Transformer,宣布突破了GPT-3参数记录;
4月,华为盘古大模型参数规模达到千亿级别,定位于中文语言预训练模型;
11月,微软和英伟达在烧坏了4480块CPU后,完成了5300亿参数的自然语言生成模型(MT-NLG),一举拿下单体Transformer语言模型界“最大”和“最强”两个称号;
今年1月,Meta宣布要与英伟达打造超级计算机RSC,RSC每秒运算可达50亿次,算力可以排到全球前四的水平。
除此之外,阿里、浪潮、北京智源研究院等,均发布了最新产品,平均参数过百亿。
看起来,这些预训练的参数规模没有最大,只有更大,且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现,一次次刷新人们的认知。
相关文章