2016 年人工智能领域人机大战不断,然而最适合人工智能的工作不应该是挑战人类,而是和人类工作结合。
在面临翻译的问题时,免费的机器翻译仍然不是特别准确,即使是最新使用深度神经网络的翻译工具也还存在一些问题;长文的人工翻译又费时费力,有道在这方面有一些新的思考,上线了一个人机合作的人机翻译工具。
对于技术本身而言,机器翻译对于普罗大众就不是什么大新闻,特别是这些技术还并不能直接让用户有什么特别感触。但自从 Google 宣布了基于深度神经网络的 GNMT 翻译框架后整个翻译工具圈一下火热了起来,甚至牵出了不少国内的翻译工具公司,比如百度、网易几大互联网巨头都在这上面有不少投入。
了解这条消息前先普及一些基本信息,比如传统机器翻译和基于深度神经网络的翻译有何不同?
传统机器翻译,就是把一个固定的字词或者词组翻译成目标语言。根据剑桥大学自然语言处理(NLP)组的陈村在一篇文章中的描述,传统机器翻译界的主流方法都是 Phrased-Based Machine Translation (PBMT),此前连 Google 翻译使用的也是基于这个框架的算法。所谓基于词组,就是将原语句中的话拆成词组,在对应词组进行逐一翻译,最后再把顺序汇总成目标语言的一句话。
比如说“今天我想吃蛋糕”,可能会被机器拆解成“今天”、“我”、“想”、“吃蛋糕”。PBMT 翻译模式会将这几个词逐一做翻译,然后根据自然语言处理重新排序,最后所呈现的结果让它看起来像一句话。所以这也解释了为什么在使用机器翻译的时候会出现大量的语序问题、以及对应词汇的翻译根本没有结合段落上下文的问题。
而基于神经网络的翻译模式是近年来发展的一个大方向,深度神经网络结构去直接学习拟合 源语言 到 目标语言 的概率。
通俗来说,传统统计机器翻译(SMT)的处理过程,更像一堆模块的组合、翻译、分词、调序等每条细分的“流水线”各司其职,最后把这些模块通过设定的机制组合起来,输出翻译结果;而 NMT 的框架会将需要翻译的原文看做一个整体,实现了以句子为整体的上下翻译环境,在单句中翻译结果更加具有逻辑性,尤其是当一个长句子出现时,这种翻译模型就比更传统的 PBMT 更加有序。
搞定了 NMT 结构框架,然后就要依赖数据喂养。比如传统通用模型可以选择中英文对照版本的书籍,而有道在新闻语料和英语学习类语料这两个方面来源数据更多,所以他们的模型训练在这方面更成熟。与传统的基于短语的翻译相比,有道宣布 YNMT(Youdao-NMT) 翻译质量的提升是 SMT 过去两年累计提升的总和,YNMT(Youdao-NMT)在新闻类语料和英语学习类语料两方面的的盲测 BLEU 值(代表准确度)甚至超过了 GNMT(Google-NMT),而 BLEU 值是一种代替人工的、针对翻译工作的自动评价方法。
现在我们对这项机器翻译服务有了一个基本的认识。有道官方告诉 PingWest 品玩(微信公众号:wepingwest),在得到了机器翻译的初稿之后,他们将在机器翻译结果上,对译文进行人工编辑和审校润色两轮修改,用来确保翻译准确。
人工智能并不是某个具象的技术,人工智能更像是一种全新的思维模式,成为了一种辅助人工作的工具。不过尽管 NMT 属于一种更先进的翻译模式,但距离人工翻译的精确度还有一定距离,比如在一些专有名词以及专业术语中,也就是出现了罕见的数据源,翻译可能就会出现一定问题;而且目前 NMT 也只是考虑到单句中字词的联系,也不能结合到整个段落。
不过欣喜的是,人工智能确实帮助了我们在翻译领域提高效率。有道人机翻译就是使用了这种概念——先用 YNMT 去辅助译员,做了初级翻译的工作,一定程度上分担译员的工作,然后剩下的工作量由人工完成。如果将人工智能置于其他行业,所能代表的工具属性大致如此。
人机翻译的机构客户比较多,这种大量中英文的翻译工作在一些跨境机构中需求明显。有道人机翻译的服务个人用户以及企业用户都可以下单。有道的一位工作人员告诉我——“比如对于网易考拉这样的跨境机构来讲,有很多海外的化妆品,需要翻译商品介绍、化妆品成分,他们的翻译需求很大,也要求准确,人机翻译就是很好的模式,便宜、准确、也很快。”
0 条评论
请「登录」后评论