文本分类(Text classification)作为人工智能领域的一个重要分支,其价值和影响力已经深入到我们日常生活的各个角落。在这个数据驱动的时代,文本分类不仅是机器学习和深度学习技术的集中展示,更是智能化应用的基础。
文本分类在智能文本处理(Intelligent Text Processing)中至关重要,文本分类的核心是将文本数据按照其含义或属性分配到预定义的类别中。这听起来简单,但在实际操作中却极具挑战性。为什么文本分类如此重要?其实,无论是个人用户还是大型企业,我们都在日常生活中与海量的文本数据打交道。例如,电子邮件自动分类系统可以帮助我们区分垃圾邮件和重要邮件,社交媒体平台利用文本分类来过滤不恰当的内容,而在商业智能中,文本分类帮助企业从客户反馈中提取有价值的洞察。在早期,文本分类依赖于专家系统和简单的统计方法,但这些方法往往受限于规模和灵活性。随着机器学习的发展,尤其是支持向量机(SVM)和随机森林等算法的应用,文本分类的准确性和适应性有了显著提高。进入深度学习时代,卷积神经网络(CNN)和循环神经网络(RNN)等模型极大地提高了文本分类的性能,特别是在处理大规模和复杂的数据集时。
作为智能文本处理的技术专家,梅术铭在软通动力(iSoftStone)担任了主任工程师(Principal Engineer),带领技术团队在10余个重要行业服务超过1100家国内外客户,其中其中超过230家客户为世界500强或中国500强企业。在担任软通动力(iSoftStone)主任工程师期间,梅术铭研发了基于智能文本处理的大模型技术底座、行业大模型及管理、场景大模型应用、大模型运营服务、大模型数据治理和安全服务,助力工业、银行、保险、证券、能源等领域不断拓展应用场景。例如针对招聘场景,梅术铭团队推出了Recruitment Copilot,可快速精准生成岗位需求画像、人才画像,可用于部分替代技术面试官进行初面,有效提升招聘效率;面向保险行业,梅术铭团队推出Insurance Copilot,帮助实现客户数据的智能分析,根据客户的实际需求、风险偏好以及购买力等因素,提供更为精准、个性化的保险产品推荐;在软件开发和测试领域,梅术铭团队推出智能研发提效工具系列—Requirement Copilot、Code Copilot和Test Copilot等,为研发实施过程提供助力,这些重大的行业应用都与智能文本处理技术息息相关。
图1:文本分类的关键技术和模型
梅术铭在智能文本处理方面拥有众多的研究成果和科研应用案例,他提出的基于检索增强生成的智能问答系统关键技术通过检索海量文档、网站或数据库等电子资源,将获取的信息融入大语言模型(LLM)生成文本中,为智能对话系统处理复杂问题时提供更准确、更深入的答案,可有效提高对话系统的准确性和时效性;他与莆田学院附属医院合作提出的基于Transformer的预训练语言模型,通过深入探讨T-PLMs在生物医学领域的多样化应用,包括文本表示和知识挖掘、临床决策支持、医学影像理解、蛋白质预测、分子表示和药物设计等,并特别归纳收集了上述多个生物医学细分领域相关的数据库资料有效地推动了临床决策支持系统的发展和基因组学数据的解读;梅术铭还提出了基于多通道循环卷积神经网络的文本分类方法,他发现以往的研究中,循环神经网络和卷积神经网络能够分别捕捉文本中的长期依赖和局部依赖,但是定长的向量表示限制了循环神经网络的特征表达能力,卷积核的大小也影响了卷积神经网络提取特征的能力。针对这些问题,梅术铭提出多通道循环卷积神经网络来处理文本分类,他采用双向长短期记忆网络对文本进行序列建模,利用标量注意力机制和矢量注意力机制来辅助生成文本的多通道表示,最终由卷积神经网络来完成文本分类,并在标准数据集上的实验验证了该框架的分类有效性以及文本多通道表示的语义丰富性。
2022年11月,梅术铭研发了Supertext智能文本系统V1.0(登记号:2022SR1467317),Supertext智能文本系统V1.0是一个智能文档审阅平台,旨在解决传统文档处理中的痛点,如文本内容多而杂、人力需求大、人力成本高等问题。它利用AI能力,在文本分析场景中提供抽取、识别、审核等功能,集成了多种文本处理工具,如文本审核、文本对比、关键词抽取、表格识别、财报识别、OCR中心、文档纠错等。
图2:梅术铭
谈到研发Supertext的初衷,梅术铭表示,他早在2021年就观察到一个普遍的现象:为了阻断不良信息的传播,不少企业都建立了数量庞大的审核队伍,国内知名平台的审核团队均达到数千人规模,国外知名平台Facebook的审核人员超过1.5万人。实际上,不只是互联网平台,如电商、金融、媒体、游戏、房地产等很多行业都离不开内容审核。然而,在海量内容面前,单靠审核人员人工来把关越来越不现实:一方面,海量的内容审核带来的成本压力与日俱增;另一方面,人工审核的时效性无法满足直播等各种实时发布的需求。为了解决这个行业疑难,梅术铭在Supertext智能文本系统V1.0中开发了智能审核插件,从而有效改变这一窘境。他在研发Supertext智能文本系统V1.0智能审核插件时,基于自然语言处理、语音识别、语义理解、图像分类、目标检测、深度学习等人工智能技术,自动提供各种内容的安全识别,极大改善了审核的时效性和效率,同时大幅降低了成本。
截至目前,梅术铭研发的Supertext智能文本系统V1.0的智能审核标注解决方案已经落户于多家头部企业,帮助客户短时间内建立起完善的审核机制,定制优化符合业务需求的审核策略和平台工具,审核、标注超过1000万条数据,综合准确率超过99.5%,帮助它们有效规避风险内容,助力企业业务的安全健康发展。
可以预见的是,基于深度学习的卷积神经网络(CNN)和循环神经网络(RNN)等模型极大地提高了文本分类的性能,特别是在处理大规模和复杂的数据集时,基于大模型的智能文本处理技术正在重塑我们创建和管理信息的方式。它不仅提高了效率,还为创新打开了新的大门。各行各业应该积极拥抱这项技术,探索如何将其整合到现有的工作流程中,为用户创造更大的价值。(作者:刘子琪)
相关文章