甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循!

发布时间:2023-08-31 14:51  

 

夕小瑶科技说 分享
Lucy,是距今320万年最早的人类祖先,也是被输入某种“物质”后大脑开发到100%的超智能人类,能感知宇宙万物,拥有人类所有知识。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物质“。

随着大语言模型不断调优,大模型拥有了更优越的理解人类话语、指令并且生成类似人类语言文本的能力。机器和人类终归不同,如何最快速地判断机器是否能正确理解人类的知识和语言,成为我们共同关注的问题。

由此,甲骨易AI研究院推出了中文大语言模型成熟度评测——LucyEval,能够通过对模型各方面能力的客观测试,找到模型的不足,帮助设计者和工程师更加精准地调整、训练模型,助力大模型不断迈向更智能的未来。

Lucy的每一个字母背后都代表了不同的意义,包含着甲骨易AI研究院设计LucyEval时所考量的维度和坚持的理念。

  • L - Linguistic Fundamentals: 基础理解能力
  • U - Utilization of Knowledge: 知识运用能力
  • C - Cognitive Reasoning: 推理能力
  • Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含义:

Linguistic Fundamentals (基础理解能力) :描述模型对基础语法、词汇和句子结构的理解程度。
Utilization of Knowledge (知识运用能力):衡量模型在回答问题或生成文本时如何运用其内嵌的知识。

Cognitive Reasoning (推理能力):评价模型是否能从给定的信息中进行逻辑推断或解决复杂问题。

Yield of Specialized Outputs (特殊生成能力):测试模型在生成特定类型或风格的文本(例如诗歌、代码或专业文章)时的效能。

目前,LucyEval已发布如下两项测试集。

大规模多任务中文理解能力测试 Massive Multitask Chinese Understanding

2023年4月25日,针对中文大模型理解能力测试缺失且推出高质量中文评测数据集迫在眉睫这一现状,甲骨易AI研究院率先发布(首发)了一套大规模多任务中文大模型理解能力测试。
测试所包含的题目来自医疗、法律、心理学和教育四个科目的11900个问题,包含单项选择和多项选择题,目的旨在使测试过程中模型更接近人类考试的方式,覆盖学科面广,专业知识难度高,适合用来评估大模型的综合理解能力。

论文链接:
https://arxiv.org/abs/2304.12986

中文大模型多学科生成能力评测基准 Chinese Generation Evaluation

目前领域内的评测大多都只针对模型的中文理解能力,通过选择题由模型直接生成答案,或者提取模型对各个答案选项的输出概率。从评测大模型的生成能力的角度,这些评测基准就存在很大的局限性。

在率先发布国内首个中文大模型理解能力测试后,甲骨易AI研究院于8月9日正式发布一套自动测评中文大模型多学科生成能力的评测基准。

基准包含11000道题目,涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的55个子科目。题型分为名词解释、简答题和计算题三种类型。同时,甲骨易AI研究院还设计了一套复合打分方式Gscore,使评分过程更加合理、科学。

甲骨易AI研究院使用本评测基准对以下模型进行了zero-shot测试,包括GPT-4、ChatGLM-Std、讯飞星火Spark Desk、文心一言ERNIE Bot等。

本次受测中文大语言模型

 

从所有模型在六大类科目的平均分来看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。

本次受测中文大语言模型平均得分

受测模型在其他学科的表现详见评测地址:

http://lucyeval.besteasy.com/

未来,甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标,持续研究适应其发展的测试集,期待与同样关注大语言模型发展的业界同仁携手共建。

论文链接:
https://arxiv.org/abs/2308.04823

 

文章来源于:ECCN    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    时并不好用,”赫尔齐格说。 他解释说,虽然现成的LLM可以生成20世纪90年代可接受的ABAP代码,但它与ABAP Cloud的现代设计原则不符合。 “RAG不太适用于代码生成,”Nvidia的生成式人工智能软件......
    ),这一软件使用的语言模型,经过了大量针对同一话题的人类文稿和人工智能文稿的数据训练,能够识别某一文稿到底是人类撰写还是人工智能软件生成。    OpenAI公司介绍说,这一......
    AMD官宣收购AI软件公司Nod.ai;据AMD官网消息,当地时间周二,美国处理器大厂AMD宣布收购开源人工智能软件公司Nod.ai,以扩展该公司的开放人工智能软件能力。 截图自AMD 被收......
    业和信息化局) (八)支持人工智能软件首版次应用。鼓励人工智能软件的开发、应用、推广,推动人工智能软件规模化应用,打造生产力工具。对拥有自主知识产权、技术先进且已实现首次商业化应用的人工智能软件......
    的开发、应用、推广,推动人工智能软件规模化应用,打造生产力工具。对拥有自主知识产权、技术先进且已实现首次商业化应用的人工智能软件,给予软件开发商最高1000万元资助。 提升源头创新能力 (九)加大......
    Velodyne Lidar收购人工智能软件公司Bluecity;收购将助推Velodyne打造更强大的智能基础设施激光雷达解决方案Velodyne Lidar, Inc. (Nasdaq......
    驾驶更具普适性,让司机形成依赖感。   姚辰 | 轻舟智航高级产品总监 以视觉3D理解为核心的新一代自动驾驶系统 鉴智机器人作为国内最早一批深耕人工智能算法、软件和芯片的领军者,以“基于软硬协同优化,构建机器人传感器计算与智能......
    人工智能软件市场规模超300亿,掘金机会有哪些?;国际电子商情21日讯 咨询机构IDC近日发布《2021年中国人工智能软件及应用市场研究报告》。数据显示,2021年全年中国人工智能软件......
    Elliptic Labs 与现有智能手机客户签订新的扩展合同;全球人工智能软件公司和AI虚拟智能传感器领域的领导者Elliptic Labs(OSE:ELABS)今日宣布,已与现有智能手机客户签订了一份扩展软件......
    台搭载MetisTM人工智能处理单元(AIPU)芯片和可作为卡、板和视觉系统使用的VoyagerTM SDK软件堆栈,以加速边缘的计算机视觉处理。 Axelera AI Metis人工智能......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>