大数据 ›› 2022, Vol. 8 ›› Issue (3): 128-139.doi: 10.11959/j.issn.2096-0271.2022025

• 研究 • 上一篇    

基于NLP的中医医案文本快速结构化方法

肖晓霞1, 刘明婷2, 杨冯天赐3, 刘鉴建县4, 杨阳5, 石月6   

  1. 1 湖南中医药大学信息科学与工程学院,湖南 长沙 410208
    2 湖南大学信息科学与工程学院,湖南 长沙 410082
    3 湘潭大学化学学院,湖南 湘潭 411105
    4 湖南泽塔科技有限公司,湖南 长沙 410012
    5 东北林业大学工程技术学院,黑龙江 哈尔滨 150040
    6 北京瑞迪弘欣科贸有限公司,北京 100071
  • 出版日期:2022-05-01 发布日期:2022-05-01
  • 作者简介:肖晓霞(1981- ),女,博士,湖南中医药大学信息科学与工程学院副教授,中国医药信息学会信息教育分会副秘书长,主要研究方向为中医智能辅助诊断、智能数据分析、嵌入式系统。
    刘明婷(1999- ),女,湖南大学信息科学与工程学院硕士生,曾获第二届全国中医药院校人工智能创新创业大赛二等奖,主要研究方向为人工智能、生物信息。
    杨冯天赐(1999- ),男,湘潭大学化学学院硕士生,曾获第三届全国中医药大学生程序设计竞赛银奖,第十五届和第十六届湖南省大学生计算机程序设计竞赛三等奖,第四届团体程序设计天梯赛湖南省二等奖、全国三等奖,主要研究方向为机器学习。
    刘鉴建县(1998- ),男,湖南泽塔科技有限公司Python开发工程师,主要研究方向为人工智能、机器学习。
    杨阳(2000- ),女,东北林业大学工程技术学院硕士生,主要研究方向为人工智能、机器学习。
    石月(1998- ),女,北京瑞迪弘欣科贸有限公司商务经理助理。
  • 基金资助:
    国家重点研发计划基金资助项目(2017YFC1703300);湖南中医药大学信息科学与工程学院学科开放基金项目(2018DK02)

A fast text structuring methodology of TCM medical records based on NLP

Xiaoxia XIAO1, Mingting LIU2, Fengtianci YANG3, Jianjianxian LIU4, Yang YANG5, Yue SHI6   

  1. 1 School of Informatics, Hunan University of Chinese Medicine, Changsha 410208, China
    2 College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082, China
    3 The College of Chemistry of Xiangtan University, Xiangtan 411105, China
    4 Hunan Zeta Technology Co., Ltd., Changsha 410012, China
    5 College of Engineering and Technology, Northeast Forestry University, Harbin 150040, China
    6 Beijing Ruidi Hongxin Science and Trade Co., Ltd., Beijing 100071, China
  • Online:2022-05-01 Published:2022-05-01
  • Supported by:
    The National Key Research and Development Program of China(2017YFC1703300);Open Fund Program of School of Informatics, Hunan University of Chinese Medicine(2018DK02)

摘要:

中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为了实现中医医案快速结构化,提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象,采用光学字符识别技术识别医案截图的文本,同时对文本做初步结构化。构建简单症状词典,采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词,并在结构化过程中更新词典,实现了对4 754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试,其F1值达到82.99%。

关键词: N-gram模型, ;自然语言处理, 中医医案, 中文分词, 光学字符识别

Abstract:

Traditional Chinese medicine (TCM) medical records are the most valuable documents for TCM doctors to learn clinical experience.The structured TCM medical records are conducive to extract the clinic knowledge based on machine learning and other methods, which can accelerate the inheritance of TCM.A fast text structuring methodology of TCM medical records based on natural language processing(NLP)was proposed to structure the clinic cases.Essence of Chinese Modern Famous Chinese Medical Records was selected as the medical record structuring objects,and the text in the screenshots of the medical records was recognized by optical character recognition (OCR) and the text was initially structured.A simple symptom dictionary was constructed, and the improved N-gram model combined with the dictionary was used to recognize the symptoms, signs and other words in the text, and the dictionary was updated in the structuring process.At last, 4 754 text medical records were structured.The final model was test on 666 medical records selected randomly from the corpus, and its F1 value reached 82.99%.

Key words: N-gram model, NLP, TCM medical records, Chinese word segmentation, OCR

中图分类号: 

No Suggested Reading articles found!