清华团队推出对话机器人 ChatGLM,支持在个人电脑上部署和调优

发布时间:2023-03-23  

在 ChatGPT 的核心团队中,不乏清华大学毕业进入 OpenAI 的开发者,就在 GPT-4 发布的同一天,清华大学顶尖的 NLP 团队,也公开了自研的类 ChatGPT 的大模型 —— 中英双语对话模型 ChatGLM-6B,初具问答和对话功能,现已开启邀请制内测(内测申请网址 http://chatglm.cn),后续还会逐步扩大内测范围。

ChatGLM:千亿基座的对话模型启动内测,单卡版模型已全面开源

官方博客中提到,这是一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。


经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。


具体来说,ChatGLM-6B 具备以下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。

  • 优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。

  • 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8)和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。

  • 更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。

  • 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(RLHF)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。


因此,ChatGLM-6B 具备了一定条件下较好的对话与问答能力。当然,ChatGLM-6B 也有相当多已知的局限和不足:

  • 模型容量较小: 6B 的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;她也不擅长逻辑类问题(如数学、编程)的解答。

  • 可能会产生有害说明或有偏见的内容: ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。

  • 较弱的多轮对话能力: ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成,以及多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

  • 英文能力不足: 训练时使用的指示大部分都是中文的,只有一小部分指示是英文的。因此在使用英文指示时,回复的质量可能不如中文指示的回复,甚至与中文指示下的回复矛盾。

  • 易被误导: ChatGLM-6B 的“自我认知”可能存在问题,很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下,会在自我认知上发生偏差。即使该模型经过了 1 万亿标识符(token)左右的双语预训练,并且进行了指令微调和人类反馈强化学习(RLHF),但是因为模型容量较小,所以在某些指示下可能会产生有误导性的内容。


该团队称,一直在探索、尝试和努力,GLM 系列模型取得了一丝进展,但离国际顶尖大模型研究和产品(比如 OpenAI 的 ChatGPT 及下一代 GPT 模型)都还有明显差距。中国大模型研究在原创算法、AI 芯片和产业上的追赶与突破需要大家的一起努力,更需要我们对下一代 AI 人才的培养与锻炼。


附 ChatGLM-6B 的对话效果展示:


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    重磅!清华大学成立人工智能学院;4月27日,清华大学成立人工智能学院,聚焦“人工智能核心基础理论与架构”和“人工智能+X”两个重点方向,以高定位和新机制建设中国自主的“AI顶尖......
    方面,今年以来,国内已成立了10余所人工智能学院,如湖南科技大学人工智能学院、广州大学人工智能学院、中国科大人工智能与数据科学学院、哈尔滨工业大学人工智能学院、清华大学人工智能学院、上海交通大学人工智能......
    的国家重点实验室。进入新时代,清华大学相继成立脑与智能实验室、未来实验室、人工智能研究院、人工智能国际治理研究院、智能产业研究院。 据悉,清华大学人工智能学院首任院长由计算机科学最高奖“图灵奖”获得......
    类脑计算研究中心主任施路平团队获“英特尔中国学术成就奖(卓越研究方向)”,浙江大学人工智能研究所所长吴飞团队和清华大学人工智能研究院常务副院长孙茂松团队获“英特尔中国学术成就奖(卓越创新方向)”,香港中文大学(深圳)助理......
    中国创始及执行合伙人沈南鹏,清华大学高等研究院双聘教授、美国国家工程院外籍院士沈向洋,创新工场董事长兼首席执行官李开复,真格基金创始人徐小平 ,前搜狗 CEO、前搜狐高级副总裁兼 CTO 王小川等。人工智能AI)对科......
    人(由左至右):清华大学副校长曾嵘、清华大学人工智能研究院名誉院长张钹院士、博世中央研究院总裁Thomas Kropf教授、博世中国总裁徐大全博士;签署人:清华大学科研院院长刘奕群教授(左)、博世......
    将进一步深化合作,共同推动工业领域人工智能的发展。 见证人(由左至右):清华大学副校长曾嵘、清华大学人工智能研究院名誉院长张钹院士、博世中央研究院总裁Thomas Kropf教授、博世......
    奖”获得者、中国科学院院士姚期智担任清华大学人工智能学院首任院长。 中国科学技术大学成立人工智能与数据科学学院 今年4月,中国科学技术大学整合原大数据学院和苏州高等研究院数据智能学院(筹......
    进一步发扬英特尔中国学术峰会的开放合作精神,本届峰会特别颁发了一系列奖项。其中,南京大学副校长周志华团队和清华大学类脑计算研究中心主任施路平团队获“英特尔中国学术成就奖(卓越研究方向)”,浙江大学人工智能研究所所长吴飞团队和清华大学人工智能......
    多媒体软件工程技术研究中心主任,武汉大学计算机学院院长,武汉大学人工智能研究院常务副院长,多媒体网络通信工程湖北省重点实验室主任 圆桌讨论:AI+生命健康产业的未来:技术......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>