智能文本处理技术重塑行业大模型

发布时间:2023-04-20  

文本分类(Text classification)作为人工智能领域的一个重要分支,其价值和影响力已经深入到我们日常生活的各个角落。在这个数据驱动的时代,文本分类不仅是机器学习和深度学习技术的集中展示,更是智能化应用的基础。

  文本分类在智能文本处理(Intelligent Text Processing)中至关重要,文本分类的核心是将文本数据按照其含义或属性分配到预定义的类别中。这听起来简单,但在实际操作中却极具挑战性。为什么文本分类如此重要?其实,无论是个人用户还是大型企业,我们都在日常生活中与海量的文本数据打交道。例如,电子邮件自动分类系统可以帮助我们区分垃圾邮件和重要邮件,社交媒体平台利用文本分类来过滤不恰当的内容,而在商业智能中,文本分类帮助企业从客户反馈中提取有价值的洞察。在早期,文本分类依赖于专家系统和简单的统计方法,但这些方法往往受限于规模和灵活性。随着机器学习的发展,尤其是支持向量机(SVM)和随机森林等算法的应用,文本分类的准确性和适应性有了显著提高。进入深度学习时代,卷积神经网络(CNN)和循环神经网络(RNN)等模型极大地提高了文本分类的性能,特别是在处理大规模和复杂的数据集时。

  作为智能文本处理的技术专家,梅术铭在软通动力(iSoftStone)担任了主任工程师(Principal Engineer),带领技术团队在10余个重要行业服务超过1100家国内外客户,其中其中超过230家客户为世界500强或中国500强企业。在担任软通动力(iSoftStone)主任工程师期间,梅术铭研发了基于智能文本处理的大模型技术底座、行业大模型及管理、场景大模型应用、大模型运营服务、大模型数据治理和安全服务,助力工业、银行、保险、证券、能源等领域不断拓展应用场景。例如针对招聘场景,梅术铭团队推出了Recruitment Copilot,可快速精准生成岗位需求画像、人才画像,可用于部分替代技术面试官进行初面,有效提升招聘效率;面向保险行业,梅术铭团队推出Insurance Copilot,帮助实现客户数据的智能分析,根据客户的实际需求、风险偏好以及购买力等因素,提供更为精准、个性化的保险产品推荐;在软件开发和测试领域,梅术铭团队推出智能研发提效工具系列—Requirement Copilot、Code Copilot和Test Copilot等,为研发实施过程提供助力,这些重大的行业应用都与智能文本处理技术息息相关。

  图1:文本分类的关键技术和模型

  梅术铭在智能文本处理方面拥有众多的研究成果和科研应用案例,他提出的基于检索增强生成的智能问答系统关键技术通过检索海量文档、网站或数据库等电子资源,将获取的信息融入大语言模型(LLM)生成文本中,为智能对话系统处理复杂问题时提供更准确、更深入的答案,可有效提高对话系统的准确性和时效性;他与莆田学院附属医院合作提出的基于Transformer的预训练语言模型,通过深入探讨T-PLMs在生物医学领域的多样化应用,包括文本表示和知识挖掘、临床决策支持、医学影像理解、蛋白质预测、分子表示和药物设计等,并特别归纳收集了上述多个生物医学细分领域相关的数据库资料有效地推动了临床决策支持系统的发展和基因组学数据的解读;梅术铭还提出了基于多通道循环卷积神经网络的文本分类方法,他发现以往的研究中,循环神经网络和卷积神经网络能够分别捕捉文本中的长期依赖和局部依赖,但是定长的向量表示限制了循环神经网络的特征表达能力,卷积核的大小也影响了卷积神经网络提取特征的能力。针对这些问题,梅术铭提出多通道循环卷积神经网络来处理文本分类,他采用双向长短期记忆网络对文本进行序列建模,利用标量注意力机制和矢量注意力机制来辅助生成文本的多通道表示,最终由卷积神经网络来完成文本分类,并在标准数据集上的实验验证了该框架的分类有效性以及文本多通道表示的语义丰富性。

  2022年11月,梅术铭研发了Supertext智能文本系统V1.0(登记号:2022SR1467317),Supertext智能文本系统V1.0是一个智能文档审阅平台,旨在解决传统文档处理中的痛点,如文本内容多而杂、人力需求大、人力成本高等问题。它利用AI能力,在文本分析场景中提供抽取、识别、审核等功能,集成了多种文本处理工具,如文本审核、文本对比、关键词抽取、表格识别、财报识别、OCR中心、文档纠错等。‌

  图2:梅术铭

  谈到研发Supertext的初衷,梅术铭表示,他早在2021年就观察到一个普遍的现象:为了阻断不良信息的传播,不少企业都建立了数量庞大的审核队伍,国内知名平台的审核团队均达到数千人规模,国外知名平台Facebook的审核人员超过1.5万人。实际上,不只是互联网平台,如电商、金融、媒体、游戏、房地产等很多行业都离不开内容审核。然而,在海量内容面前,单靠审核人员人工来把关越来越不现实:一方面,海量的内容审核带来的成本压力与日俱增;另一方面,人工审核的时效性无法满足直播等各种实时发布的需求。为了解决这个行业疑难,梅术铭在Supertext智能文本系统V1.0中开发了智能审核插件,从而有效改变这一窘境。他在研发Supertext智能文本系统V1.0智能审核插件时,基于自然语言处理、语音识别、语义理解、图像分类、目标检测、深度学习等人工智能技术,自动提供各种内容的安全识别,极大改善了审核的时效性和效率,同时大幅降低了成本。

  截至目前,梅术铭研发的Supertext智能文本系统V1.0的智能审核标注解决方案已经落户于多家头部企业,帮助客户短时间内建立起完善的审核机制,定制优化符合业务需求的审核策略和平台工具,审核、标注超过1000万条数据,综合准确率超过99.5%,帮助它们有效规避风险内容,助力企业业务的安全健康发展。

  可以预见的是,基于深度学习的卷积神经网络(CNN)和循环神经网络(RNN)等模型极大地提高了文本分类的性能,特别是在处理大规模和复杂的数据集时,基于大模型的智能文本处理技术正在重塑我们创建和管理信息的方式。它不仅提高了效率,还为创新打开了新的大门。各行各业应该积极拥抱这项技术,探索如何将其整合到现有的工作流程中,为用户创造更大的价值。(作者:刘子琪)

文章来源于:ECCN    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    入的建筑物监测主流方案。 环境监测 在城市化监测领域,地理空间智能研究中心团队开发了一个基于不透水地表层面积的城市元胞自动机模型,该模型可以利用从卫星观测获得的每年城市范围及时间序列的数据,仿真......
    2016诺贝尔医学奖揭晓:日本生物学家大隅良典;2016年诺贝尔医学奖揭晓,获奖者是来自日本生物学家大隅良典(Yoshinori Ohsumi)。 日本生物学家大隅良典获奖的项目是探明了细胞自噬启动机......
    2016诺贝尔医学奖揭晓:日本生物学家大隅良典;2016年诺贝尔医学奖揭晓,获奖者是来自日本生物学家大隅良典(Yoshinori Ohsumi)。 日本生物学家大隅良典获奖的项目是探明了细胞自噬启动机......
    电磁转矩仅仅依赖交轴电流,从而实现了转矩表达式中的交直轴电流解耦。仿真模型如下图所示: 控制模型主要包括转速给定部分,比例积分(PI)模块,坐标转换模块,逆变器控制模块,以及电动机模块。下面进行一一介绍。 4.1、转速......
    matlab的电机模型仿真测试;模型搭建背景电机控制器是电机驱动系统中的关键部分,其中,控制器及其功率驱动模块的好坏直接影响电机控制的性能及安全性,因此,在电机的研究和评估过程中,往往......
    胞增殖后移植回患者的方法,理研正通过动物实验进行验证。京瓷将活用自身在电子零部件生产方面积累的微细加工技术,开发细胞自动培养装置,力争2020年涉足细胞代工业务。          据称,日本......
    -MOSFET和用于续流的SiC-SBD作为两个芯片被单独制造,并在模块内通过并联连接。相反,三菱电机开发的集成SBD的SiC-MOSFET(图2)通过在SiC MOSFET元胞中周期性地插入SiC......
    “细胞自噬”机制治疗难病研究在扩大;       旨在利用获诺贝尔生理学或医学奖的东京工业大学荣誉教授大隅良典探明的“细胞自噬”机制治疗疾病的研究正在扩大。日本......
    转子位置和转速来控制输出磁场,实现定子电流和磁场之间的高精度控制。   8. 基波电流控制(SCC):通过控制定子电流基波大小和相位来控制电动机,可以实现简单的速度和转矩控制,但精度较低。   这些控制方法的实现通常需要先进行电机模型......
    两相感应伺服电动机的控制方法;两相感应伺服电动机是一种交流电动机,通过电磁感应的原理将电能转化为机械能,实现运动控制。与普通的异步电动机相比,两相感应伺服电动机具有更高的精度和响应速度,广泛应用于自动......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>