图源:Brian/Stock.adobe.com
作者:Becks Simpson,贸泽电子专稿
发布日期:2023年3月30日
生成式预训练转换器 (GPT) 等自然语言处理 (NLP) 模型以制作类人文本、回答复杂问题和巧妙辩论各种主题的能力震惊世界,而其被滥用的可能性引发的担忧也在日益加剧。虽然这些模型可以用于很多写作应用,但如果用来完成作业将对学生的学习产生负面影响。因此,教育工作者也在寻求一些方法,以通过手动(如查看内容本身的标志)或自动(如使用人工智能 () 构建的文本分类器)的方式,来判断文本是否由AI生成。此外,还有一些人在尝试重新设计课程,以让学生无法用AI完成作业,或者鼓励学生自己完成作业。在所有方法中,重新设计课程似乎取得了较大的成效。
适当借助工具进行创作
新的NLP AI模型,特别是GPT变体(ChatGPT、GPT-3等),将彻底改变人类写作方式。拥有如此强大的技术意味着,用户可以更快地把一个想法或一系列要点变成一篇文章。 他们可以通过一些有用的提示和新的思路来激发写作灵感,摆脱困扰。无论是否有经验,都可以借助新一代NLP模型来进行创作,而没有经验的人更容易将自己的想法转化为精彩的文章和故事。
然而,使用这些AI模型作为写作辅助工具也有缺点。比如对于中高等教育等来说,写作练习的目标是学习如何写好文章,以及如何提出和表达有说服力的想法和论点。写作也是学习如何研究论据以支持文章中提出的观点以及磨练批判性思维技能的工具。完全依靠AI模型来完成这项工作会跳过这一过程,让学生们无法学到这一重要技能。因此,了解如何确定某些东西是否是由AI编写的成为了当下努力的方向。
发掘迹象:如何识别AI创作
随着AI智能写作的逐渐普及,我们看到AI创作的机会也越来越多,这也为我们提供了一个了解AI创作类型的窗口, 帮助我们识别内容特征,以确定作者是人类还是机器。有趣的是,虽然准确性是一个较为具体的指标,但这些特征大多与散文的整体流畅度而非语法和拼写细节有关。然而,对于通常引用明确答案或同一事实的高度热门话题来说,即使是人类编写的内容也很可能看起来与AI生成内容相似并重复。对于较短的文本来说更是如此,无论是看起来还是听起来都难以辨别。因此,只有在文本足够长的情况下,才有可能有效地识别出是否出自AI。
所以,AI文章往往会重复一些内容,尤其是在编写长篇文章时。ChatGPT这类模型会以先前所有的预测令牌为基础预测下一个令牌;因此,在一系列的预测文本中,某些单词出现得越早,它们重新出现的可能性就越大。AI写作的另一个迹象是没有感情,内容平淡,没有任何特别强烈的情感或观点。对于师生这种读者熟悉作者个性的情况,就很容易识别出来。如果还有同一作者的其他文本作为参考,就更加容易识别出AI文本,尤其是那些在考试等监督条件下写出来的文本可能没有那么精致,更能表达作者的真实声音。如果两篇文章的常用表达方式和语言有很大差异,那么就很可能不是出自同一人之手。
另一个迹象是,是否正确陈述事实,以及引用是否正确。众所周知,像GPT-3和ChatGPT等生成模型很难产生正确的答案(它们可能会自信地断言并非如此),因为即使它们使用大量互联网文本信息进行训练,但实际上也无法记住所有内容。因此,这些模型是在对事物有了大致了解的基础上,将所学知识以类似人类的语言展现出来,而不是原样照搬一些细枝末节。对于很多没有关联元素用以检验真实性的模型来说,由做了足够研究的人发现作业中存在的错误,也能很好地证明这篇文章是由AI生成的, 尤其是在内容与时事、人物或地点有关时,这是因为最新版本的公开模型只在某个日期(通常是2021年或2022年)的数据上进行了训练。然而,在评估这一特定迹象时,需要检查这一模型是否发布了更新的知识。
用魔法打败魔法
随着AI复杂度的不断提升,其中一些迹象将消失或变得很微妙,以至于人类很难检测到。一些新兴的AI工具可用来检测书面内容是否来自AI;例如,一些较新的大型语言模型 (LLM) 正在接受训练,以便知道何时向外部来源发出某些请求,进而检索事实信息或运行数学计算。 为了消除难以确定作业是否由AI编写的可能性,各大公司甚至推出了大量可以确定内容出处的AI模型。就连ChatGPT的制作方OpenAI也发布了一款工具,便于教育工作者区分某篇文章是否由LLM编写。经过一系列测试,发现它能够识别26%的AI书写文本,但有9%的误报率,会将人类书写的文本错误标记为AI文本。尽管还存在准确性问题,但OpenAI仍希望这些不完美的工具能够帮助打击使用AI的学术不端行为。
组合分类器是另一种可以通过使用AI来提高检测AI文本成功率的方法。GPTSZeroX和DetectGPT等其他文档分类器可以检测文本的突发性和困惑度。这两个指标分别用于衡量机器人预测下一个文本的可能性,前提是人类创作具有更高的随机性;以及困惑度在句子中的变化,以AI更倾向于保持困惑度不变为前提。这些分类器都存在一定的局限性,例如,DetectGPT仅适用于某些GPT模型,因此将其中几个分类器的结果组合起来可能会更好地识别出AI文本。
如何彻底解决问题
某种程度上来说,这看起来像是试图用AI打败AI的一种循环! 在检查AI技术进步的同时,写作AI也在不断地学习,并将学会绕过这种检查。这个循环将一直持续下去,直到某个时刻,几乎不可能仅仅通过检查内容来确定一篇文章是否出自AI。这就会引导教育工作者尝试对作业结构和任务进行测试,例如,布置一些小众主题(例如,当地社区或鲜为人知的历史人物)的作业,让学生写一些个人的东西,或更多地关注基于项目的学习,进而让他们发现AI难以胜任。
选择小众主题是因为通常AI对它们了解较少,学生们必须自己经过研究才能找到正确的答案。他们可能仍然会使用这些模型来创作书面内容,但至少学会了研究和评估信息相关性。要求学生写个人话题更多的是源自心理学,因为当自己成为焦点时,人们更倾向于亲历亲为。老师们发现,相较于处理外部话题,学生在处理个人话题时更开放、更兴奋。基于项目的学习也非常好,因为它包含了多个不同复杂程度的任务,通常存在一些AI无法完成的实际问题。例如,一个跨学区的项目涉及到研究当地政策对水质的影响,这意味着学生不仅需要研究政策,还需要实地测量水质。他们还需要以图形、图表和围绕数据的故事形式展示他们的发现,这是ChatGPT难以做到的。
结语
虽然GPT模型家族在某些领域可能非常有用,但对于中高等教育等领域,还是应该谨慎使用这些模型,以避免过度依赖和忽视学习成效。因此,有些教育工作者正在寻求一些方法,以通过检查文本是否存在事实记忆差、写作无创意或缺乏创意以及过度重复等迹象,来确定某项作业是否是AI生成的。也有些人则在寻求AI检测工具的帮助。然而,由于这两种方法可能都不够完美,或者会产生错误的结果,所以我们还需要找到更好的作业布置方法,以求超出AI能力范畴或者打消学生使用AI的想法。后者可能效果更好,因为它从一开始就在很大程度上规避了使用的欲望,从长远来看也可以让学生更加投入。
作者简介