浪潮信息发布“源”Yuan-EB,刷新大模型RAG检索精度纪录!

发布时间:2024-12-09 09:31  

近日,浪潮信息发布"源"Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜单中斩获检索任务第一名,以78.41的平均精度刷新大模型RAG检索最高成绩,将基于元脑企智EPAI为构建企业知识库提供更高效、精准的知识向量化能力支撑,助力用户使用领先的RAG技术加速企业知识资产的价值释放。

Yuan-EB(版本号Yuan-embedding-1.0) 是专为增强中文文本检索能力而设计的嵌入模型(也称Embedding模型),在 "源2.0" 大模型的工作基础上,创新性地采用了"源2.0-M32"大模型进行数据重写与合成,并通过索引技术、样本排序等系列方法完成高质量微调数据集构建,能够有效提升RAG系统的检索精度。 

C-MTEB是目前业内最权威的嵌入模型测试榜单。其中,检索任务(Retrieval)是检索增强生成(RAG)场景下最为重要、应用最广泛的任务能力,考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。"源"Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集,实现了业界领先的海量文本检索精度。

“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一
“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一

"源"Yuan-EB助力RAG检索精度新高

嵌入模型在RAG流程中扮演着关键角色,它能够将复杂的高维数据(例如文本、图像或音频)转换为机器可理解的向量形式,直接决定了RAG检索的精准性和效率。

 "源"Yuan-EB通过数据准备与模型微调两个方面的技术创新,实现了模型精度的大幅提升:

• 在数据方面,基于"源2.0"微调阶段的问答数据进行清洗与筛选,构建问题(query)与文本(corpus)数据集;使用"源2.0-M32"对C-MTEB 训练数据进行重写与合成,通过索引技术与排序模型进行高效的难负样本提取,完成大规模难负例样本挖掘,形成高质量微调数据集;

• 在微调方面,通过两个阶段的领先微调方法实现模型能力提升。第一阶段,使用各个领域(医疗、新闻、长文本、娱乐等方向)的大规模数据进行对比学习训练;第二阶段,采用"源2.0-M32"生成的合成数据进一步微调,并使用MRL方法完成"源"Yuan-EB训练;

"源"Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择,能够在RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。

元脑企智EPAI集成"源"Yuan-EB,加速知识库构建与性能提升

目前,"源"Yuan-EB已经在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。用户可以在元脑企智EPAI平台中快速使用"源"Yuan-EB,并结合EPAI自研的多阶段RAG技术,零代码、低成本地基于企业数据构建大模型知识库应用。

企业大模型开发平台"元脑企智"EPAI(Enterprise Platform of AI),是浪潮信息为企业AI大模型落地应用打造的高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。

元脑企智EPAI已经支持超过13种类型文档的信息识别与提取,结合创新的多级混合检索策略,有效提升元脑企智EPAI在管理、解析、检索知识库与生成内容方面的最终效果,帮助企业用户实现基于私有数据、行业数据下的精准检索、精准问答,确保专业场景下大模型生成内容的准确性和可靠性,加速大模型创新力释放。

文章来源于:ECCN    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    订单页面由于访问量激增,可能暂时无法刷新,请大家耐心稍等片刻。” 汽车行业分析师费哲逸指出,中国市场在特斯拉全球份额中扮演非常重要的角色,乘联会预测称,到2021年中国电动车总销量将达到170万辆,可以......
    由于GPIO输出达不到160MHz因此输出波形异常。把主频降低到120MH在,输出正常,可以达到120MHz刷新。 z这篇文章介绍的方法刷新速度与上面的速度相同(已经测试)“ STM32 | 基于 HAL......
    正常,可以达到120MHz刷新。 z这篇文章介绍的方法刷新速度与上面的速度相同(已经测试)“ STM32 | 基于 HAL 库实现 DMA 驱动 GPIO 高速翻转_stm32 dma gpio_羽墨......
    STM32F4系列芯片几个无法启动的原因;最近一年多开始使用STM32F4系列芯片,在使用开发板、评估板的时候一切正常,但当自己做板子的时候事故频发,最典型的就是无法启动、无法刷机,现将遇到的几个无法......
    程度是能满足消费者日常门前安防的需求了,但是开门方式还是不能满足“方便所有家人”这个需求。比如老人指纹不清晰,小孩子身高不够无法刷脸,亲朋好友来访家里正好没人在,真实的生活中总是会有各种各样的意外情况,让这......
    具有解决行业痛点的带动作用。那么,作为专精特新“小巨人”企业,华佳软件解决了细分领域的哪些痛点? 据佳都科技集团中央研究院执行院长贾建平介绍,在现有地铁业务中,同一线路不同业务之间系统分设,资源无法共享,容易......
    专精特新“小巨人”企业,华佳软件解决了细分领域的哪些痛点? 据佳都科技集团中央研究院执行院长贾建平介绍,在现有地铁业务中,同一线路不同业务之间系统分设,资源无法共享,容易形成信息孤岛,业务......
    型号选择 实际测试过程中,使用最低的9V输入电压时,电源无法正常启动,在反复的震荡,如图2. 图2:实际......
    是一个公共 API,在搜索系统中的软件包时,可以提供更高的效率,并可以进行软件源的错误跟踪和溯源。 ▲ 图源 SonarSource 该漏洞发生的原因,主要是“数据库组态配置不当”,即使......
    ; 更新事件是基于更新操作所导致的后续影响或结果。 可能的更新操作【事件源】有3类: 1、核心计数器的溢出【上溢或下溢】 2、软件复位操作【对UG@TIMX_EGR置位】 3、工作......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>