集团辖下的前瞻技术研究单位联发创新基地、中央研究院词库小组和国家教育研究院等三方所组成的研究团队,23日宣布推出全球第一款繁体中文语言模型到开源网站提供测试,后续将有机会持续推动具备繁体中文的人工智能(AI)市场发展。
表示,本次公开释出以开源语言模型BLOOM开发的繁体中文(Large language model),比目前开源可用的最大繁体中文模型大1,000倍,所使用的训练数据也多1,000倍。该模型已公开让外界下载,可应用于问答系统、文字编修、广告文案生成、华语教学、客服系统等。
联发创新基地负责人许大山表示,是近年来人工智能技术进步的亮点,更是未来进步不可或缺的基石。此次结合中研院及国教院,成为台湾极少数能训练的团队,以透明、开放和包容的方式,善用技术、人才及资源,既发展自主训练大型人工智能模型的能力,也让繁体中文的大型语言模型研究及应用更为普及。
开放原始码释出的大型语言模型,目前多数仍以英文为主要优化的对象,繁体中文的语言模型相对不足。有鉴于开放原始码繁体中文大型语言模型的重要性与迫切性,在2022年5月,联发创新基地、中央研究院和国家教育研究院展开合作计划,使用大型语言模型BLOOM的繁体中文模型再训练与优化。
目前开放系列中第一个有量级跳跃意义的繁体中文语言模型,联发创新基地也暂备一个手机网页接口,供研究者试用。
为建立该项语言模型,国家教育研究院提供了大量高质量的繁体中文语料,作为主要的训练材料。联发创新基地则建置了训练的硬件环境,制订各种符合国际标准的繁体中文评量指标,收集更近期的语料,并对模型进行能更有效读懂使用者的指示(prompt)的特别训练。