谁说搞人工智能一定要大公司？这家不足两百人的本土公司搞出了垂直应用领域大模型！

发布时间:

来源: 电子创新网

作者：电子创新网张国斌

今年以来，随着chatGPT的火爆，国内各种互联网公司、云计算公司、大数据公司纷纷出洞，声称自己都在搞大模型，而且一帮自媒体也推波助澜，为各大公司抬轿子吹号子，似乎只有大公司才能玩转大模型，但是，大家可能忘了一个基本的事实，那就是，目前火爆的几家人工智能大模型公司人数并不多！

今年1月，OpenAI创始人及CEO奥特曼透露公司员工人数为375人，与谷歌和脸书等科技巨头从事人工智能工作的数千名员工相比，这是一个很小的数字。“我知道我不应该吹嘘OpenAI，我们要感谢我们所有的外包公司为训练模型提供了必不可少的数据。”而真正在ChatGPT项目中做出贡献的人员，据OpenAI官网显示，

共有87人。

该团队平均年龄为32岁，“90后”是主力军。华人成为了该团队中一支重要的科技创新力量，共9人，占团队总人数的比例超10%。华人学者欧阳龙更是参与了与 ChatGPT 相关的 7 大技术项目中的 4 大项目的研发，是InstructGPT 论文的第一作者，也是RLHF 论文的第二作者。

AI绘画工具Midjourney的公司竟然

只有10人！

Midjourney绘画作品：平民窟里的百万富翁

所以老张认为，在人工智能领域，会走出类似半导体领域fabless的模式：就是小公司专注特色大模型开发，然后利用云算力通过互联网数据和人类知识体系进行训练，最后将训练好的模型用于推理应用。

所以，在大模型应用领域，比拼的是模型的优劣而不是公司的规模，小公司如果开发出好的模型一样可以完胜大公司！就好比10人不到的一家IC设计公司也可以设计一颗比拼大公司的IC！

在4月18日贸泽电子芯英雄联盟直播“聊聊ChatGPT以及生成式AI对产业的颠覆”中，直播嘉宾南京云创大数据科技股份有限公司总裁刘鹏教授现场发布了该公司的大模型产品：云创大数据发布cGPT S1000自然语言搜索一体机！，云创大数据公司只有不到200人，其人工智能成果已经在政府、高校等领域广泛应用！

据刘教授介绍，在人工智能实际应用中，我们常常需要对内部数据进行安全快速的搜索。比如对于企业内部积存的大量档案、资料、文书等形式的文档，如果使用传统的关键词匹配搜索某个特定文件，需要准确输入文件名，一旦忘记文件名，搜索犹如大海捞针。

针对这一问题，cGPT S1000自然语言搜索一体机应运而生。该一体机在自然语言处理技术的加持下，基于对语句本身的理解，根据计算后的关联相似度进行排序，可达0.1秒响应，快速筛选出接近语句语义的内容。比如，在专利搜索时，传统算法只能通过关键词搜索专利，无法查找包含相近含义的所有专利，现在在cGPT S1000自然语言搜索一体机中导入专利数据，经过一体机自动预处理后，即可在0.1秒内找到所有相关专利。

欢迎大家自行搜索体验！

网址：zl.cstor.cn或识别下图二维码体验：

据他介绍，之所以能够达到这样的效果，是因为cGPT S1000自然语言搜索一体机通过人工智能理解了自然语言相互之间的关系。正如以下视频所展现的，这些词语、句子之间相互关联，它们或许是表达方式不同但是含义相同的语句，或许是同一学科领域内的相似概念。通过解读这些关系，人工智能能够真正理解自然语言的含义以及人类的意图，继而做出相应反馈。

对于资料纷繁复杂的各大企事业单位而言，将所有信息和资料放进cGPT S1000自然语言搜索一体机并通过一体机完成自动预处理，相当于构建了一个高保密的内部资源库，内部员工可以在库中快速查找所需信息。

cGPT S1000自然语言搜索一体机是云创大数据针对大规模自然语言处理应用场景，自主研发的高速向量计算搜索一体机。该一体机采用并行计算架构，融合高密度混合服务硬件，为用户提供软硬件一体化的高性能自然语言搜索解决方案。cGPT S1000自然语言搜索一体机支持TXT、Word、PDF、CSV等多种格式的数据源，支持对采集的数据源进行文本提取和数据清洗，采用分布式集群架构，智能化自动构建搜索资料库。用户只需将海量的业务文件、图书论文文献、文本数据等导入该一体机，即可建立个性化的定制搜索引擎

　　（运行原理）

cGPT S1000自然语言搜索一体机支持基于文本语义理解技术，具备更加准确的检索能力，能够将输入查询的文本与一体机中的文本进行快速比对，并将搜索到与输入文本语义相近的多组结果根据相似度排序返回输出。针对千万级甚至上亿量级的文本数据库，该一体机依旧可以达到0.1秒级的返回结果速率。

cGPT S1000自然语言搜索一体机基于大数据分布式实时计算框架，结合定制化高密度计算硬件，实现大规模自然语言处理任务的分发与计算结果汇聚，保证计算任务执行的高效和稳定。基于特征向量计算算法以及分布式集群处理资源调度技术，该一体机实现了海量特征库条件下1：N对比任务的高效分解与并行处理，可将单个任务响应效率提升到0.1秒级。

　　（总体架构）

刘教授表示，对于不同数据规模需求的用户，自然语言搜索一体机提供了弹性的性能资源配置模式，可以有效地控制系统建设成本，灵活满足千万甚至上亿量级业务规模的性能需求和使用场景。

它提供API接口，搜索应用可部署至本地服务器或者用户私有云环境，与用户业务打通融合的同时，实现内外网的物理隔绝，保障数据的私密性。

cGPT S1000自然语言搜索一体机基于语义理解技术，能够快速查找需要的内容，可广泛应用于资料查询、专利搜索、电子病历检索、法律文献检索、学术文献检索、论文查重等多种场景。

资料查询

用户内部积存大量的档案、资料、文书等各种形式的文档，检索资料不仅繁琐且重复性高，耗费大量时间和精力。通过自然语言处理技术，只需简短的一句话或几个关键词，自然语言搜索一体机即可完成资料搜索，命中率和准确率都大幅提高。

专利搜索

通过关键词匹配不一定能够找出某一主题的所有相关专利，而借助自然语言搜索一体机，可以准确找到已经成功申请的与该主题相关的所有专利信息，包括描述、编号等，从而在专利申请时避免重复申请等问题，大大节省时间和费用。

电子病历检索

基于自然语言搜索一体机，在自然语言处理技术的助力下，用户可建设面向特定医疗领域的知识服务平台，以此更好地提供电子病例检索、处方查询、医疗知识问答等医疗服务。

法律文献搜索

基于自然语言搜索一体机，用户可对案件信息进行查询和梳理，比如针对某一案件，律师通过输入描述，即可在资料库中找出相似案例情况以及司法解释，有助于案件分析、诉讼准备等，司法人员也可借助该一体机节省资料整理、分析的时间。

学术文献检索

查阅论文时，根据关键词匹配，可以检索出不少结果，但主要是包含关键词的内容，不一定是用户真正需要查找的，而借助自然语言搜索一体机，在准确表达查找内容的情况下，只需一句简单描述，即可检索到真正为用户所需的论文。

论文查重

在论文查重时，针对论文可能存在的不同语种相互翻译导致的抄袭，或者以替换词语、改变表达的方式规避查重等问题，借助自然语言搜索一体机，可对其进行准确检测，以语义为准，及时发现论文写作时的抄袭、剽窃等乱象。

据刘教授介绍，云创微调的最大模型参数量达到1700多亿，可以适合各种垂直领域应用。在本次直播活动中，由于航班延误，刘鹏教授不得已在机场候机大厅进行直播报告，但报告效果丝毫未受影响，约3000名网友参与观看。

具体而言，刘鹏教授所作报告主题为《人工智能引领未来》。在报告中，刘鹏教授分享了人工智能近10年的三次大飞跃及其技术本质，并梳理了人工智能技术创新发展对各行各业的影响。在此基础上，刘鹏教授也介绍了云创大数据在大数据、人工智能领域的技术探索与成功案例。大家纷纷表示，本次报告帮助自己对ChatGPT与生成式AI建立了立体深入的认识，可谓收获满满！

刘鹏教授，清华大学博士，中国大数据应用联盟人工智能专家委员会主任、中国信息协会教育分会人工智能教育专家委员会主任、教育部全国普通高校毕业生就业创业指导委员会委员、2019年全国大学生数学建模比赛命题人、第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、中国电子学会云计算专家委员会云存储组组长、工业和信息化部云计算研究中心专家、2002年PennySort国际计算机排序比赛冠军与2003年全国挑战杯比赛总冠军。

贸泽电子“芯英雄联盟”是电子创新网新推出的一档知识分享型直播栏目，每期直播邀请半导体产业专家与电子创新网CEO张国斌先生共同分享产业趋势、探讨技术未来，助力本土半导体产业创新。

这是本次直播的回放，大家可以扫码回看：