大数据 ›› 2018, Vol. 4 ›› Issue (3): 37-45.doi: 10.11959/j.issn.2096-0271.2018028

• 专题:生物医疗大数据 • 上一篇    下一篇

基于ICD-10诊断编码的慢性病并发症聚类算法

王晓霞1,2,3,蒋伏松4,王宇5,熊贇1,2   

  1. 1 复旦大学计算机科学技术学院,上海 201203
    2 上海市数据科学重点实验室,上海 201203
    3 西北师范大学计算机科学与工程学院,甘肃 兰州 730070
    4 上海市第六人民医院,上海 200233
    5 上海市普陀区疾病预防控制中心,上海 200333
  • 出版日期:2018-05-15 发布日期:2018-05-30
  • 作者简介:王晓霞(1978-),女,博士,复旦大学计算机科学技术学院博士生,主要研究方向为数据科学、大数据。|蒋伏松(1974-),男,博士,上海市第六人民医院内分泌代谢科副主任医师,主要研究方向为糖尿病并发症的防治。|王宇(1982-),男,上海市普陀区疾病预防控制中心主管医师、慢性病科科长,主要从事慢性病的预防控制工作。|熊贇(1980-),女,博士,复旦大学计算机科学技术学院教授。2004年起从事数据领域方面的研究工作,作为项目负责人主持国家自然科学基金、上海市科学技术委员会发展基金以及企业合作项目。相关研究成果在本领域国际权威期刊或会议发表论文40余篇,出版著作3本。目前主要研究方向为数据科学、大数据。
  • 基金资助:
    国家高技术研究发展计划(“863”计划)基金资助项目(2015AA020105);上海市科技发展基金资助项目(16JC1400801);上海市科技发展基金资助项目(17511105502)

Chronic disease complications clustering based on ICD-10 diagnoses code

Xiaoxia WANG1,2,3,Fusong JIANG4,Yu WANG5,Yun XIONG1,2   

  1. 1 School of Computer Science,Fudan University,Shanghai 201203,China
    2 Shanghai Key Laboratory of Data Science,Shanghai 201203,China
    3 College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China
    4 Shanghai Sixth People’s Hospital,Shanghai 200233,China
    5 Shanghai Putuo District Center for Disease Control and Prevention,Shanghai 200333,China
  • Online:2018-05-15 Published:2018-05-30
  • Supported by:
    The National High Technology Research and Development Program of China(2015AA020105);Shanghai Science and Technology Development Fund(16JC1400801);Shanghai Science and Technology Development Fund(17511105502)

摘要:

慢性病与其相关并发症关系的研究,对患者以及医学研究都有重要意义。电子病历中记录的患者就诊数据为研究目标慢性病与其并发症的关系提供了数据基础,其中面临的挑战之一在于既需要使用临床医生的领域知识对并发症进行标注,又不希望给医生增加过多负担。设计了一种采用分组策略的基于ICD-10诊断编码的慢性病并发症半监督聚类方法,以实现在较少的医生专家参与下对慢性病并发症归类。真实糖尿病患者电子医疗记录数据集上的实验结果表明提出的算法是实用且有效的。

关键词: 半监督学习, 聚类算法, 慢性病并发症, CD-10诊断编码I

Abstract:

Study on the relationship between the chronic disease and the corresponding complications has great theoretical significance and applicable value for patients and clinical medicine.In order to utilize healthcare electronic record more reasonably,preprocessing was needed according to prior medical knowledge for chronic disease complication.The challenge of this work is that medical knowledge should be exploited to label the corresponding complications.To meet these challenges and assist physicians in labeling complications of a target chronic disease,a semi-supervised chronic disease complications clustering algorithm based on ICD-10 code for diagnoses was proposed.Experiments on a real dataset of diabetes electronic healthcare record show that the algorithms are practical and effective.

Key words: semi-supervised learning, clustering algorithm, chronic disease complication, ICD-10 diagnoses code

中图分类号: 

No Suggested Reading articles found!