大数据 ›› 2023, Vol. 9 ›› Issue (4): 159-171.doi: 10.11959/j.issn.2096-0271.2023008

• 研究 • 上一篇    

基于概率分布差异的医学命名实体识别方法

刘聪1, 吕雪峰1, 王宏林1, 王晓伟2, 陆瑾2, 孙顺1, 胡松奇1   

  1. 1 中国共产党中央军事委员会后勤保障部信息中心,北京 100190
    2 长沙军民先进技术研究有限公司,湖南 长沙 410205
  • 出版日期:2023-07-01 发布日期:2023-07-01
  • 作者简介:刘聪(1985- ),男,博士,中国共产党中央军事委员会后勤保障部信息中心工程师,主要研究方向为医疗卫生大数据、医疗卫生信息化
    吕雪峰(1979- ),男,中国共产党中央军事委员会后勤保障部信息中心高级工程师,主要研究方向为医疗卫生大数据、医疗卫生信息化
    王宏林(1988- ),男,中国共产党中央军事委员会后勤保障部信息中心工程师,主要研究方向为后勤信息化
    王晓伟(1980- ),男,博士,长沙军民先进技术研究有限公司高级工程师,主要研究方向为自然语言处理、大数据
    陆瑾(1993- ),男,长沙军民先进技术研究有限公司工程师,主要研究方向为自然语言处理、人工智能
    孙顺(1980- ),男,中国共产党中央军事委员会后勤保障部信息中心工程师,主要研究方向为卫生信息化
    胡松奇(1988- ),男,中国共产党中央军事委员会后勤保障部信息中心工程师,主要研究方向为卫生信息化
  • 基金资助:
    军队后勤科研重点项目(BS220R007)

Medical named entity recognition algorithm based on probability distribution difference

Cong LIU1, Xuefeng LYU1, Honglin WANG1, Xiaowei WANG2, Jin LU2, Shun SUN1, Songqi HU1   

  1. 1 Information Center, Logistic Support Department of CMC, Beijing 100190, China
    2 Changsha Civi-military Advanced Technology Research Limited Company, Changsha 410205, China
  • Online:2023-07-01 Published:2023-07-01
  • Supported by:
    Key Program of Scientific Research of Army Logistics(BS220R007)

摘要:

医学命名实体识别是从医学文本中抽取出指代特定概念的医学实体,是医学信息抽取的基础性任务。当前主流的医学命名实体识别算法普遍基于深度学习技术,需要大量高质量的标注样本进行模型训练。然而医学领域的样本标注成本很高,严重限制了模型性能的提升。为了降低模型对标注样本的需求,一种重要的方法是基于主动学习思想,设计合理的样本采样策略,自动选取高价值样本优先标注,从而使模型提前收敛。现有算法普遍基于样本长度、样本识别的概率等特征来设计采样策略,忽视了样本类别分布这一深层次特征,导致命名实体识别召回率较低。提出了一种基于概率分布差异的主动学习算法,通过计算样本间的概率分布差异来评估样本的标注价值,并在标注样本更新时动态优化模型。在真实的医学检查文本上的实验表明,相比已有算法,达到同等的模型性能,该算法所需要的标注数据可缩减10%以上;在相同标注样本量的情况下,本算法F1值提高5%以上。

关键词: 医学命名实体识别, 深度学习, 主动学习, 概率分布

Abstract:

With the improvement of data abilities and the development of emerging technologies, there are profound changes occurring in economic patterns and competitive structure of industries.In order to better respond to future opportunities and challenges, and to improve competitiveness of enterprises in new situations, it is necessary to understand and master the knowledge of digital transformation.The new competitive situation was discussed in which traditional enterprises would gradually be replaced by digital-transformed ones, digital transformation was differentiated from digitalization.Main challenges facing traditional enterprises while undergoing digital transformation were pinpointed, which were the lack of funds, talents, data and consciousness.A digital transformation service platform oriented to new competitive situation was proposed, which provided a feasible solution to enhancing enterprise competitiveness and conducting digital transformation.

Key words: digital transformation, emerging technologies, data asset, digital economy

中图分类号: 

No Suggested Reading articles found!