如果有一个人工智能英语老师,不仅能随时给你的英语作文打分,而且还可以给出改进建议,是不是很妙?
近日在微信公众号平台上线的一款名为“爱写作”的产品,就提供了这样的功能,PingWest品玩和它背后的微软开发团队聊了聊,听他们讲了讲这个人工智能老师究竟是如何工作的。
AI 批改英文作文效果几何?
首先我们来通过例子来看看它的具体表现如何。
“爱写作”的功能分为 3 块,分别是作文打分、语法纠正和词语替换。
这项服务最早可追溯到 2018 年,微软亚洲研究院开发的英语学习服务“微软小英”,上线作文打分功能。2019 年 12 月,微软将其升级之,并命名为“爱写作”,首先在网页端上线。
我们以一篇高三英文作文为例,看看“爱写作”的实际效果。
通过右边检查结果,可以清晰看到,这篇英文作文在高考评分标准下,拿到了 24 分(满分 25 分)。有 5 处语法错误,建议替换 12 处。
打分模块不仅只呈现一个数字,还给出了所衡量的维度。
“爱写作”能根据不同考试类型来打分,用户在批改前可自行选择。众所周知,每个学段考试,对应总分是不一样的。比如高考英语作文满分是 25 分,六级是 106.5 分,而雅思是 9 分。
而在语法层面,错误基本能检查出来,比如 AI 识别“we would sure die”应改为“we would surely die”。
AI 识别“eat in a health way”应改成“eat in a healthy way”。
除了语法纠正,“爱写作”还能通过词语替换来润色作文。词语替换是指,机器给出更高级的用词建议,由用户决定要不要替换。
比如下面这个例子,“爱写作”给出的建议是“connections”替代“contacts”,组成“social connections”。
AI 是怎么改英文作文的?
在作文打分上,“爱写作”采用了微软亚洲研究院研发的序数回归模型。
据微软亚洲研究院文章,作文打分是一种主观行为,要转化为机器打分,需要大量有标注的数据,而序数回归模型大大减少了对标注数据量的依赖。
这项技术把“文章与具体分数的匹配”问题,变成了一个有序的比较大小的问题。
在训练过程中,将已有的标注数据两两配对进行对比,进而形成新的文章与评分,再将此数据加入到标注数据集中,使得可用于训练的标注数据量呈指数级增加,从而整体提高了评分的准确性。
语法纠正方面,“爱写作”同样用到了微软原创的模型。
“语法纠正和机器翻译在技术上有一定相似性。”微软亚洲研究院资深开发经理夏炎介绍,“不管是用户写的文章,还是机器翻译出来的,都要判断这个句子的语法正确性和语言流畅度。”
早在 2018 年 8 月,微软亚洲研究院就发表文章,介绍了一种用于语法纠正的全新学习和推断机制——“流畅度提升学习与推断”(Fluency Boost Learning and Inference)。
该机制基于自然语言处理领域非常流行的 seq2seq 模型。据微软亚洲研究院文章,对于一个用于语法改错任务的 seq2seq 模型,其基本的训练数据为,一个原始句子和正确句子所组成的改错句对,如下图(a) 所示。
从理论上讲,只要有大量的训练数据,就能得到一个相对完美的语法改错模型。
然而实际上,这种改错句对的数量规模相当有限。“我们在做 AI 模型研究时,第一个困难就是训练数据和样本的生成及获取。”夏炎说。
因此,在训练数据并不充足的情况下,seq2seq 模型泛化能力会受到影响,导致哪怕输入的句子稍稍变动一点,模型也可能无法将其完全改正,如上图 (b) 所示。
此外,对于一个含有多个语法错误的句子,单次的 seq2seq 推断往往不能完全将其改正。在这种情况下,需要用多轮 seq2seq 推断来对一个句子反复修改,如上图 (c) 所示。
为了改进 seq2seq 模型的不足,微软亚洲研究院提出了“流畅度提升学习与推断”机制。这一机制可细分为两部分,分别是“流畅度提升学习”和“流畅度提升推断”。
“流畅度提升学习”是指在训练模型的过程中,让 seq2seq 模型生成多个结果,然后将流畅度不如正确句子的生成句子,和正确句子配对,组成全新的流畅提升句对,作为下一轮训练的训练数据。
“中间这些结果都是机器自动生成的,有的流畅度很高,有的流畅度很低。”夏炎说,“我们可以把流畅度低于最终结果句子都拿过来作为训练样本。这样数据收集工作就大大减轻了,是一个很有意义的改进。”
“流畅度提升推断”则是利用 seq2seq 模型对句子进行多轮修改,直到句子流畅度不再提升为止。
这种多轮修改策略能够率先改掉句子一部分语法错误,从而使句子上下文更加清晰,有助于模型修改剩下的错误。
像下图的例子里,机器会先把第一句改成第二句,把“is catched”换成了“caught”,有一定进步,但还没使得整个句子的语法完全一致,因为后面还有“last night”,需要把主语时态“sees”改成“saw”。
经过第二次修改后,结果已经没有毛病,但机器还会进行第三次修改。改完后,句子流畅度已经没有新改变。
“这个时候我们可以认为,语法纠正的流程结束了。”夏炎说,“这其实也是人在批改一篇文章时常见的场景,先把一些容易发现的错误改掉,然后再仔细地读一遍,又发现一些错误,需要循环几次。”
词语替换功能则是基于预训练语言模型。预训练语言模型是自然语言处理的新范式:使用大规模文本语料库进行预训练,对特定任务的小数据集微调,降低单个自然语言处理任务的难度。
2019 年,微软提出了一种新的预训练语言模型 UniLM。在“爱写作”上,这个模型可以通过半遮盖原单词的策略,建议更符合表达者预期的替换词语。
“对于词语替换场景,直接用业界流行的 BERT 模型其实是不太合适的。”夏炎告诉 PingWest 品玩,“这个模型只考虑语法正确性,得出的结果不一定符合原词的观点和想法。”
以“The wine he sent to me as my birthday gift is too strong to drink”这句话为例子,替换目标词是“strong”。
没有遮盖住目标词(keep target word)的 BERT 模型,会给出词义高度相关,但实际不太适合的替换词:“stronger”、“strongly”、“hard”和“much”。
完全遮盖住目标词(mask target word)的 BERT 模型,输出了“hot”、“thick”、“sweet”和“much”。这些词在语法上都是对的,但跟目标词的意思相比,差别还是比较大。
“我们的做法是,通过半遮盖策略,把词中一部分信息隐含掉,然后让模型去预测,机器输出了‘tough’、‘powerful’、‘potent’和‘hard’这些词。”夏炎解释道,“‘powerful’这个词,词义跟原来单词接近,又没有简单把‘strong’变成其他形式,如‘stronger’或‘strongly’。”
得到替换词列表后,“爱写作”还会进行排序,最终把最适合的单词呈现在最上面。
最后,“爱写作”还有微软自研的新一代 OCR 引擎,能检测出图像中的各类文字,同时支持打印体和手写体的复杂文字场景识别。
“总而言之,‘爱写作’主要应用了自然语言理解技术。相较于语音识别和图像处理等感知层面技术,自然语言理解是 AI 在认知层面要解决的最核心问题之一,让机器理解人类语言是非常难的。”夏炎说,“在‘爱写作’中,我们用了很多自然语言处理领域内的经典任务,并且针对写作这个场景优化模型。”
目前,“爱写作”更多是根据用户语法和用词去做打分。夏炎告诉 PingWest 品玩,未来会研究一些新算法和模型,让“爱写作”不止能分析用户的语法错误,还可以更深层地理解作文的结构和组织形式。“如果机器能理解用户写作意图,就可以帮助他在内容组织上进行优化,这是 AI 辅助写作的另一个场景”。
此外,据微软亚洲研究院文章,语法纠正技术还可以被用在英文写作之外的更多场景,比如电子邮件、PPT 演示文稿、翻译文件等。
0 条评论
请「登录」后评论