通信学报 ›› 2018, Vol. 39 ›› Issue (7): 103-112.doi: 10.11959/j.issn.1000-436x.2018118

• 学术论文 • 上一篇    下一篇

基于远程监督的多因子人物关系抽取模型

黄杨琛1(),贾焰1,甘亮1,徐菁1,黄九鸣1,赫中翮2   

  1. 1 国防科技大学计算机学院,湖南 长沙 410073
    2 湖南星汉数智科技有限公司知识图谱研发部,湖南 长沙 410205
  • 修回日期:2018-06-21 出版日期:2018-07-01 发布日期:2018-08-08
  • 作者简介:黄杨琛(1991-),女,湖南衡阳人,国防科技大学博士生,主要研究方向为数据挖掘、自然语言处理等。|贾焰(1960-),女,四川成都人,国防科技大学教授、博士生导师,主要研究方向为社交网络分析、信息安全等。|甘亮(1977-),男,江西樟树人,国防科技大学讲师,主要研究方向为知识工程、专家系统等。|徐菁(1989-),女,山东济南人,国防科技大学博士生,主要研究方向为知识工程、文本挖掘等。|黄九鸣(1981-),男,福建安溪人,国防科技大学讲师,主要研究方向为社交网络分析、信息安全等。|赫中翮(1991-),男,山西大同人,湖南星汉数智科技有限公司工程师,主要研究方向为信息抽取。
  • 基金资助:
    国家重点研究发展计划基金资助项目(2016QY03D0601);国家重点研究发展计划基金资助项目(2016QY03D0603);国家自然科学基金资助项目(61502517);湖南省重点研发计划基金资助项目(2018GK2056)

Multi-factor person entity relation extraction model based on distant supervision

Yangchen HUANG1(),Yan JIA1,Liang GAN1,Jing XU1,Jiuming HUANG1,Zhonghe HE2   

  1. 1 College of Computer,National University of Defense Technology,Changsha 410073,China
    2 KB R&D department,Hunan Singhand Intelligent Data Technology Co.,Ltd.,Changsha 410205,China
  • Revised:2018-06-21 Online:2018-07-01 Published:2018-08-08
  • Supported by:
    The National Key Research and Development Program of China(2016QY03D0601);The National Key Research and Development Program of China(2016QY03D0603);The National Natural Science Foundation of China(61502517);Key Research and Development Plan of Hunan Province(2018GK2056)

摘要:

针对远程监督的基本假设过强容易引入噪声数据的问题,提出了一种可以对远程监督自动生成的训练数据去噪的人物实体关系抽取模型。在训练数据生成阶段,通过多示例学习的思想和基于 TF-IDF 的关系指示词发现的方法对远程监督产生的数据进行去噪处理,使训练数据达到人工标注质量。在模型分类器中,提出采用词法特征和句法特征相结合的多因子特征作为关系特征向量用于分类器的学习。在大规模真实数据集上的实验结果表明,所提模型结果优于同类型的关系抽取方法。

关键词: 关系抽取, 人物关系, 远程监督, 机器学习, 自然语言处理

Abstract:

Aiming at the problem that the basic assumption of distant supervision was too strong and easy to produce noise data,a model of the person entity relation extraction which could automatically filter the training data generated by distant supervision was proposed.For training data generation,the data produced by distant supervision would be filtered by multiple instance learning and the method of TF-IDF-based relation keyword detecting,which tried to make the training data has the manual annotation quality.Furthermore,the model combined lexical and syntactic features to extract the effective relation feature vector from two angles of words and semantics for classifier.The experiment results on large scale real-world datasets show that the proposed model outperforms other relation extraction methods which based on distant supervision.

Key words: relation extraction, person entity relation, distant supervision, machine learning, natural language processing

中图分类号: 

No Suggested Reading articles found!