智能科学与技术学报 ›› 2020, Vol. 2 ›› Issue (2): 144-152.doi: 10.11959/j.issn.2096-6652.202016

• 学术论文 • 上一篇    下一篇

融合篇章结构位置编码的神经机器翻译

亢晓勉1,2,宗成庆1,2()   

  1. 1 中国科学院自动化研究所模式识别国家重点实验室,北京 100190
    2 中国科学院大学,北京 100049
  • 修回日期:2020-04-01 出版日期:2020-06-20 发布日期:2020-07-14
  • 作者简介:亢晓勉(1991- ),男,中国科学院自动化研究所模式识别国家重点实验室博士生,主要研究方向为机器翻译、篇章分析|宗成庆(1963- ),男,博士,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,主要研究方向为机器翻译、自然语言处理和文本数据挖掘等
  • 基金资助:
    国家自然科学基金资助项目(U1836221)

Fusion of discourse structural position encoding for neural machine translation

Xiaomian KANG1,2,Chengqing ZONG1,2()   

  1. 1 National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China
    2 University of Chinese Academy of Sciences,Beijing 100049,China
  • Revised:2020-04-01 Online:2020-06-20 Published:2020-07-14
  • Supported by:
    The National Natural Science Foundation of China(U1836221)

摘要:

现有的文档级神经机器翻译方法在翻译一个句子时大多只利用文档的上下文词汇信息,而忽视了跨句子的篇章语义单元之间的结构关系。针对此问题,提出了多种篇章结构位置编码策略,利用基于修辞结构理论的篇章树结构,对篇章树上位于不同篇章单元的单词之间的位置关系进行了表示。实验表明,通过位置编码的方式,在基于Transformer框架的神经机器翻译模型中有效地融合了源端的篇章结构信息,译文质量得到了显著提升。

关键词: 神经机器翻译, 篇章结构, 位置编码, 篇章分析, 修辞结构理论

Abstract:

Most of existing document-level neural machine translation (DocNMT) methods focus on exploring the utilization of the lexical information of context,which ignore the structural relationships among the cross-sentence discourse semantic units.Therefore,multiple discourse structural position encoding strategies were proposed to represent the positional relationships among the words in discourse units over the discourse tree based on rhetorical structure theory (RST).Experimental results show that the source-side discourse structural position information is effectively fused into the DocNMT models underlying the Transformer architecture by the position encoding,and the translation quality is improved significantly.

Key words: neural machine translation, discourse structure, position encoding, discourse analysis, rhetorical structure theory

中图分类号: 

No Suggested Reading articles found!