大数据 ›› 2024, Vol. 10 ›› Issue (1): 46-61.doi: 10.11959/j.issn.2096-0271.2023079

• 研究 • 上一篇    

面向低资源场景的实体知识获取研究综述

徐道柱1, 赵凯琳2, 康栋3, 马超1, 冯禹铭2, 李紫宣2, 弋步荣3, 靳小龙2   

  1. 1 西安测绘研究所,陕西 西安 710054
    2 中国科学院计算技术研究所,北京 100086
    3 航天恒星科技有限公司,北京 100089
  • 出版日期:2024-01-01 发布日期:2024-01-01
  • 作者简介:徐道柱(1982- ),男,博士,西安测绘研究所副研究员,主要研究方向为地理信息处理与应用。
    赵凯琳(1995- ),女,中国科学院计算技术研究所博士生,主要研究方向为小样本学习、知识抽取。
    康栋(1991- ),男,航天恒星科技有限公司工程师,主要研究方向为知识图谱。
    马超(1988- ),男,博士,西安测绘研究所助理研究员,主要研究方向为地理信息智能化处理。
    冯禹铭(1999- ),男,中国科学院计算技术研究所硕士生,主要研究方向为命名实体识别、增量学习。
    李紫宣(1995- ),男,博士,中国科学院计算技术研究所助理研究员,主要研究方向为知识图谱、自然语言处理。
    弋步荣(1984- ),男,航天恒星科技有限公司工程师,主要研究方向为遥感应用、人工智能、知识图谱。
    靳小龙(1976- ),男,博士,中国科学院计算技术研究所研究员、博士生导师、CCF高级会员,主要研究方向为大数据知识工程、知识图谱。

Survey on entity extraction for lowresource scenarios

Daozhu XU1, Kailin ZHAO2, Dong KANG3, Chao MA1, Yuming FENG2, Zixuan LI2, Burong YI3, Xiaolong JIN2   

  1. 1 Xi’an Research Institute of Surveying and Mapping, Xi’an 710054, China
    2 Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100086, China
    3 Space Star Technology Co., Ltd., Beijing 100089, China
  • Online:2024-01-01 Published:2024-01-01

摘要:

实体获取是信息抽取的核心任务。近年来,在大数据训练模型的趋势下,深度学习在实体获取任务上取得了成功。但在自然环境等领域中,地形、灾害等类型的实体样本或者标注样本很少,而且对无标签样本进行标注又耗时费力。因此,面向低资源场景的实体获取逐渐受到关注,该任务被称作低资源实体获取或小样本实体获取。系统地梳理了当前低资源实体获取的相关工作,具体来说介绍了基于元学习、基于多任务学习和基于提示学习这3类方法的研究现状;总结了目前常用的低资源实体获取数据集和代表性模型在这些数据集上的实验结果;对低资源实体获取的方法进行了总结与分析;总结了低资源实体获取的挑战,并展望了未来发展方向。

关键词: 实体获取, 低资源场景, 小样本学习

Abstract:

Entity extraction is an essential task in information extraction.In recent years, under the trend of training model with big data, deep learning has achieved success in entity extraction.However, in the fields such as natural environment, there are very few entity samples or labeled samples of terrain, disasters and other types, and labeling those unlabeled samples is time-consuming and laborious.Therefore, entity extraction for low-resource scenarios has gradually attracted more and more attention, which is called low-resource entity extraction or few-shot entity extraction.This paper systematically combs the current approaches of low-resource entity extraction.It introduces the research status of three types of methods: metalearning based, multi-task learning based, and prompt learning based.Next, the paper summarizes the low-resource entity extraction datasets and the experimental results of the representative models on these datasets.In the following, the current low-resource entity extraction approaches are analysed.Finally, this paper summarizes the challenges of low-resource entity extraction and discusses the future research direction in this field.

Key words: entity extraction, low-resource scenarios, few-shot learning

中图分类号: 

No Suggested Reading articles found!