您现在的位置是:网站首页>其他其他

从理解到改进:非自回归翻译中的词汇选择

佚名 2019-10-01 SG讲故事 读取中...人已围观

简介从理解到改进:非自回归翻译中的词汇选择 | 论文解读-InfoQ从0到1详细介绍你掌握的一门语言、一个技术,或者一个兴趣、爱好机器翻译旨在利用计算机实现自然语言之间的自动翻译,一直是自然语言处理与人工

从理解到改进:非自回归翻译中的词汇选择 | 论文解读-InfoQ从0到1详细介绍你掌握的一门语言、一个技术,或者一个兴趣、爱好机器翻译旨在利用计算机实现自然语言之间的自动翻译,一直是自然语言处理与人工智能领域的重要研究方向。随着深度学习的到来,机器更是取得了突破性进展,已成为大众较为熟知和常用的技术。近几年,从 RNN 到 Transformer 的演进,不仅全面提升了翻译性能,也为并行加速训练提供了可能性。但是传统的 Transformer 架构在解码时仍是逐词产生译文,即每一步译文单词的生成都依赖之前的翻译结果(如图 1 左所示),随着 Transformer 模型规模的增加,使得解码的时间开销非常大。为了打破解码速度的瓶颈,非自回归神经机器翻译系统(NAT)于 2018 年被提出[1]。其摆脱了自回归分解的约束,并行地生成所有目标词(如图 1 右所示)。这使得解码速度得到了极大提升,从 NAT 快速解码得到的收益可以允许在工业界的特定延迟和预算下部署更大更深的 Transformer 模型。

但是,生成中的多模性(Multimodality)对 NAT 提出了根本的挑战。我们都知道语言是高度多模态的(multimodal),例如日语句子彼は日本语が上手です可以翻译成两个等价的英文句子 he is very good at Japanese 和 he speaks Japanese very well 。但是,看起很像的两个句子:he speaks very good at Japanese 或 he is very good at very well 则没有任何意义。但是在条件独立的解码中很难避免后者的出现,这导致 NAT 的性能显着弱于 AT 模型。因此,我们通常引入自回归模型(AT)作为教师,借助序列级知识蒸馏(Knowledge Distillation, KD)[2] 来降低原始数据的复杂度,使得 NAT 更容易学习到确定性的翻译知识,最终得到与 AT 可比较的翻译质量。因此,KD 也成为 NAT 训练的常用技术。

围绕提升 NAT 的翻译质量,前人从模型结构、训练目标等方面进行探索。而腾讯 AI Lab 近期发表一篇工作则另辟新径,从数据角度发现了知识蒸馏提出将原始数据暴露给 NAT 模型,以恢复蒸馏数据中被遗漏的低频信息。实验结果表明,该方法在多种语言对和模型结构上能够有效地、通用地提升翻译质量。大量分析证实该方法通过减少低频词的词汇选择错误来提高整体性能。令人鼓舞的是,在 WMT14 英德和 WMT16 罗英数据集上将 SOTA NAT 效果分别提高到 27.8 和 33.8 BLEU 值。本论文已被 接收[3]。以下为分析方法和解决方案的详细解读。

首先,本文通过定性和定量的分析,发现了 KD 的副作用:使原始数据的分布更加不平衡,从而带来了严重的词汇选择错误(特别是在低频率的词汇上)。这种低频词的错误会通过知识蒸馏传递到 NAT 模型中。如表 1 所示,训练数据中仅出现 3 次的“纽马基特”,在原始语料中均被翻译为“Newmarket”。但是,在蒸馏后分别被错译成了人名“Newmargot”(Margot Robbie 是澳洲女演员)、机构名“Newmarquette”(Marquette 是威斯康星的一所大学)甚至错译成无意义的“Newmarquite”。

”的所有样本,“SRC”表示源端中文句子,“RAW-TGT”和“KD-TGT”分别表示原始目标端和蒸馏后的目标端为了更好地理解 KD 带来了什么样的变化,本文同时考虑了两种不同效果的教师模型 KD (Base) 和 KD (Big),将语料分解为高中低三种词频,并且从两个角度重新审视了他们:训练数据(图 2)和解码后的译文(图 3)。本文首先可视化了训练数据中的词频密度,如图 2 所示,其发现 KD 数据的词频密度分布的峰度显着高于原始数据,而且这种现象随着采用更强的教师 KD (Big)而更加显着。KD 的副作用也很明显,即原始数据中的高/低频词汇会变得更加高频/低频。为了更好的理解 KD 对不同词频的影响,其在图 3 中列出了不同词频的翻译精度(Accuracy ofhoice, AoLC)。发现采用更好的教师模型,中、高词频的翻译精度会显着提升,因此整体上提升了翻译的表现,但是这严重破坏低频词的翻译精度。

图 3. 不同数据集上采用不同教师模型进行蒸馏对不同词频的翻译精度对比基于上述有趣的发现,本文提出将原始数据暴露给 NAT 模型,以恢复蒸馏数据中被遗漏的低频信息。为此,作者引入了一个额外的 KL 散度项来约束 NAT 模型和原始数据中的词汇选择。实验结果表明,该方法在多种语言对和模型结构上能够有效地、通用地提升翻译质量。大量分析证实该方法通过减少低频词的词汇选择错误来提高整体性能。

本文的目标是增强 NAT 模型,让其从原始数据中可以学到所需要的词汇选择(尤其低频词),以此获得更好的性能。如图 4 左所示,目前的 NAT 训练 pipeline 为先使用 AT 模型对原始数据进行蒸馏,然后 NAT 只学习蒸馏后的数据。我们的方案(图 4 右)不仅利用蒸馏后的数据,同时也考虑从原始数据中学习必要的知识(如低频词)。

图 4. 左为目前 NAT 训练方案:经过 AT 模型对数据蒸馏;右为暴漏原始数据到 NAT 的策略为此,作者在目前 NAT 的训练目标上引入了一个额外的双语数据相关的先验约束。这个先验约束采用 KL 散度来引导 NAT 模型的预测去匹配从原始数据中提取的双语先验分布。随着训练的进行,这种先验约束的影响会对数级衰减,在训练的后半程模型只学习蒸馏过的数据。具体地讲,我们从原始数据中抽取两种双语先验分布,一种基于统计词对齐模型额次对齐分布,另一种基于 NAT 模型自蒸馏的分布。实验主结果如表 2 所示,本文选择了多个 NAT 模型来验证我们方法效果,多个数据集上的实验均表明我们的方法可以有效提高低频词的翻译准确度,从而带来 BLEU 的提升。

表 2. 在两个通用数据集上我们方法可以有效的改善译文质量并且超过之前方法此外,本文还进行了大量的分析实验,发现该方法的确能够减少译文中的错翻现象,显着提高低频词的翻译效果并且输出更多低频的词汇(表 3 所示)。同时,发现现随着 AT 教师模型的增强,所提出的方法都能取得稳定的提升(表 4 所示)。

非自回归翻译(NAT)是目前最受关注的机器翻译子领域之一。NAT 模型有快速解码优势但其性能却弱于传统的自回归翻译方法。围绕提升 NAT 的翻译质量,前人主要从模型结构、训练目标等方面进行探索。而本工作另辟新径,从数据角度发现了知识蒸馏的副作用,并定义了词汇选择问题。这将改变传统的 KD 训练,并引导后续工作提出更合理的训练策略。

集成学习的作用就是将这多个弱学习器提升成一个强学习器。今天我们就来聊聊集成学习的基本原理,以及典型的集成学习方法。

一文讲透预训练模型的改进训练算法 ,轻松达到 State of the Art我们学了那么多模型,这些模型背后的共性规律在哪里?这些规律又将如何指导我们对于新模型的理解呢?

本文对北美计算语言学联合会 2019 年出版的《自然语言处理中迁移学习教程》(NAACL 2019 tutorial on Transfer Learning in NLP)进行了拓展。

招商证券 BERT 压缩实践(二):如何构建 3 层 8bit 模型?

本文将介绍几种更简洁的模块替换方法,能够把BERT体积压缩至1/10。

机器翻译语料数据太少怎么破?今日头条、南大提出基于镜像生成的 NMT 新模型Google 神经机器翻译系统实现 Zero-Shot 翻译Google的多语言神经机器翻译系统创造了一种中介语言,使其可以对以前未进行直接互译训练的语言对和短语进行翻译,他们称之为Zero-Shot翻译。

从今天开始,我们进入一个新的模块,我会结合几篇经典的论文,给你介绍几个专门为计算机视觉而提出来的深度学习模型。

本文详细的介绍了滴滴翻译的整体框架、原理以及方法,同时还会简单介绍滴滴NLP在今年参加的机器翻译大赛(WMT2020)的一些技术。

基于 RNN Transducer 端到端语音识别的最小贝叶斯风险训练 | 论文解读端到端语音识别技术将语音识别系统中的各个组件整合至同一个神经网络框架中,与传统语音识别系统相比具有建模简洁,赋能组件之间联合优化以及系统占用空间小等优点,近几年逐渐成为语音识别领域里最重要的研究方向之一。

XLnet:GPT 和 BERT 的合体,博采众长,所以更强本文介绍BERT的改进版,XLnet,看看它用了什么方法,改进了BERT的哪些弱点。

在计算机视觉中,域适应是一个常见要求,因为带有标注的数据集很容易取得,但是获得的数据集和我们最终应用的数据集来源的域往往是不同的。

今天我要介绍的是LDA的模型,它在过去十年里开启了一个领域叫主题模型。一段时间内,LDA是分析文本信息的标准工具。

谷歌提出任务无关的轻量级预训练模型 MobileBERT:比 BERT 小 4 倍、速度快 5 倍目前还没有任何工作能构建出一个与任务无关的轻量级预训练模型,谷歌大脑研发人员提出了MobileBERT来填补这一空白。

屠榜各大 CV 任务,微软开源的 Swin Transformer 有多强?

“AI 大神”吴恩达收获首个 IPO,Coursera 上市首日大涨 36.36%Deepfake 防御新思路有了!腾讯首次公开 MagDR 框架,已被 AI 顶会接收35 深度学习之外的人工智能 | 授人以鱼不如授人以渔:迁移学习效果不降效率提升 11.4 倍,小米 AI 实验室提出针对中文命名实体识别的多孔词格编码器兼顾实时性、准确度和隐私:腾讯联合港中文提出新型神经网络压缩方法本迷你书包括 86 个业务开发中常见踩坑点。每一个知识点都相当的实用,是程序员业务开发中的必备避坑指南...程序员,你最重要的选择是和谁结婚,你最重要的能力是赚钱,钱和女友两手抓idea+spring4+springmvc+mybatis+maven实现简单增删改查CRUD和邓小平、基辛格“谈笑风生”的世界第一女记者:奥琳亚娜·法拉奇利用Translate ToolKit 2.5.0 API构建Flask web app【终于解决】ubuntu19安装nvidia驱动后屏幕亮度默认最亮不可调节安装VMware16兼容Hyper-v+WSL2+Docker+解决0x80370102报错选赵敏还是选小昭,这可真是个问题 | Decision TreeCopyright © 2021, Geekbang Technology Ltd. All rights reserved. 极客邦控股(北京)有限公司 |2021年全国大学生计算机系统能力大赛操作系统设计赛 技术报告会2021年全国大学生计算机系统能力大赛操作系统设计赛 技术报告会

nat 大数据 回归 机器学习 论文翻译 数据 选择 原始数据

很赞哦!