大数据 ›› 2021, Vol. 7 ›› Issue (4): 80-104.doi: 10.11959/issn.2096-0271.2021040
所属专题: 知识图谱
谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳1
出版日期:
2021-07-15
发布日期:
2021-07-01
作者简介:
谭玲(1993-),女,北京邮电大学博士生,主要研究方向为知识图谱及自然语言处理、大数据及人工智能基金资助:
Ling TAN1, Haihong E1, Zemin KUANG2, Meina SONG1, Yu LIU1, Zhengyu CHEN1, Xiaoxuan XIE1, Jundi LI1, Jiawei FAN1, Qingchuan WANG1, Xiaoyang KANG1
Online:
2021-07-15
Published:
2021-07-01
Supported by:
摘要:
随着互联网技术的不断迭代更新,对海量数据的语义理解变得越来越重要。知识图谱是一种揭示实体之间关系的语义网络,医学是知识图谱应用较广的垂直领域之一,医学知识图谱的构建也是目前国内外人工智能领域研究的热点。从医学知识图谱本体构建出发,依次对命名实体识别、实体关系抽取、实体对齐、实体链接、知识图谱存储、知识图谱应用进行综述,详细介绍了近年来医学知识图谱构建过程中涉及的难点、现有技术、挑战及未来研究方向,并介绍了医学知识图谱应用,最后对未来发展方向进行了展望。
中图分类号:
谭玲, 鄂海红, 匡泽民, 宋美娜, 刘毓, 陈正宇, 谢晓璇, 李峻迪, 范家伟, 王晴川, 康霄阳. 医学知识图谱构建关键技术及研究进展[J]. 大数据, 2021, 7(4): 80-104.
Ling TAN, Haihong E, Zemin KUANG, Meina SONG, Yu LIU, Zhengyu CHEN, Xiaoxuan XIE, Jundi LI, Jiawei FAN, Qingchuan WANG, Xiaoyang KANG. Key technologies and research progress of medical knowledge graph construction[J]. Big Data Research, 2021, 7(4): 80-104.
表1
医学本体常用的数据集"
名称 | 数据类型 | 数据量 |
SNOMED-CT | 临床医学术语标准 | 146 217条 |
UMLS | 一体化医学语言系统 | 概念:3 000 000个 |
名称:12 000 000个 | ||
OMAHA | 中文临床医学术语集 | 概念:964 074个 |
术语:1 211 053个 | ||
关系:2 886 015条 | ||
映射:1 343 919个 | ||
TCMLS | 中医药学语言系统 | 概念:100 000个 |
术语:300 000个 | ||
语义关系:1 270 000条 | ||
OpenKG | 中文症状、中医医案、中医经方等 | 数据集:139个 |
CMeKG | 医学文本数据 | 疾病:10 000余种 |
药物:近20 000种 | ||
症状:10 000余种 | ||
诊疗技术及设备:3 000种 | ||
概念、关系及属性:1 560 000个 |
表2
医学命名实体识别常用的数据集"
名称 | 数据类型 | 数据量 |
BC5CDR | 疾病 | 5 818种疾病 |
BC5CDR | 药品/化学物质 | 409种药品,3 116条药品-疾病相互作用关系 |
BC4CHEMD | 药品/化学物质 | 10 000篇摘要 |
BC2GM | 药品/化学物质 | 24 583个基因实体 |
NCBI | 疾病 | 793个PubMed摘要 |
2010 i2b2/VA | 疾病 | 22个概念提取系统、21个断言分类系统、16个关系分类系统 |
ShARe/CLEF 2013 | 疾病 | 300篇临床报告 |
LINNAEUS | 物种 | PMCOA的100个全文文档 |
CHEMDNER | 化学物质 | 10 000篇PubMed摘要 |
GENIA | RNA、蛋白质、细胞系、细胞类 | 2 000篇MEDLINE摘要 |
JNLPBA | 基因、蛋白质、DNA和RNA | 2 400篇MEDLINE摘要 |
CCKS2017 | 病历 | 1 600个文档 |
CCKS2018 | 病历 | 1 000个文档 |
表3
医学实体关系抽取常用的数据集"
名称 | 详情 |
DrugBank | 为每一种药品提供了80多个方面的信息,包括品牌名、化学结构、蛋白质和DNA序列、互联网上的相关链接、特征描述及详细的病理信息等 |
STITCH | 一个用于检索已知的以及被预测的化合物和蛋白质之间的互作关系的平台,STITCH数据库中包含超过30 000个小分子化合物以及来自1 133个物种的260万个蛋白质之间的互作关系 |
TCMSP | 包括中国药典注册的499种中药,含29 384种成分、3 311个靶标和837个相关疾病。这些信息可以在该数据库中查询和下载。该数据库中的疾病信息来自TTD数据库和PharmGKB数据库 |
TTD | 提供有关药物、靶点、疾病和通路的信息。目前的版本收集了34 019种药物,其中包括2 544种准许药物、8 103种临床试验药物和18 923种在研药物。针对每种药物,提供其化学结构、靶标、靶向疾病和相关通路的信息。用户可以通过靶点、药物、疾病和生物标志物搜索数据库,也可以使用药物相似性搜索工具预测没有靶点信息的化合物的靶点 |
CCHMC | 数据来自辛辛那提儿童医院医学中心(Cincinnati children’s hospital medical center,CCHMC)放射科。CCHMC的机构审查委员会批准了数据的发布。采用Bootstrap方法对所有门诊X线胸片和复诊胸片进行为期一年的采样。这些数据是常用的数据之一,它们的设计提供了足够的代码来涵盖儿科放射学活动的实质比例 |
MIMIC | 麻省理工学院计算生理学实验室开发的一个公开可用的数据集,包括与约40 000名重症监护患者相关的未识别的健康数据(包括人口统计、生命体征、实验室检测、药物治疗等) |
表5
医学实体链接常用的数据集"
名称 | 描述 | 数据量 |
Med Mentions | 包含了来自PubMed的摘要,并用UMLS标注了生物医学特性概念 | 文档:4 392个 |
描述:352 268条 | ||
实体:50 628个 | ||
3DNotes | 医生口述笔记语料库,标注了与症状和疾病相关的问题实体。这些实体被映射到国际疾病和相关健康问题统计分类的第10版(ICD-10),是UMLS的一部分 | 文档:3 403个 |
描述:35 704条 | ||
实体:4 265个 | ||
ParsEL-Social | 由10个不同类别的电报频道的社交媒体内容构成:体育、经济、游戏、一般新闻、IT新闻、旅游、艺术、学术、娱乐和健康 | 文档:4 263个 |
句子:6 160个 | ||
单词:67 595个 | ||
实体:19 831个 | ||
候选:145 148个 | ||
BC5CD任务语料库 | 由1 500篇PubMed文章组成,其中有4 409种化学物质、5 818种疾病和3 116种化学疾病 | 文档:1 500个 |
NCBI疾病语料库 | 使用MeSH或OMIM中的概念标识符,用疾病描述进行注释 | 文档:793个 |
疾病描述:6 892条 | ||
疾病概念:9 664个 | ||
MeSH标识符:7 827个 | ||
OMIM标识符:9 664个 | ||
ShARe/CLEF | 从美国重症监护数据存储库收集的未识别临床记录,包括出院总结、心电图、超声心动图和放射学报告,共180 000字 | 临床记录:298份 |
TAC2017ADR | 每个药物标签中的不良反应都被手动标注为MedDRA低水平项(LLT)和相应的首选项(PT) | 药物标签:200个 |
rizona Disease Corpus39(AZDC) | 包含来自MEDLINE摘要的句子,注释包括疾病名称并映射到UMLS CUI | 疾病描述:3 228条 |
疾病:1 202种 | ||
映射:686个 | ||
标记:80 000个 | ||
句子:2 784个 | ||
i2b2/VA corpus8 | 包括不同医院的出院总结,此外,还将医学问题作为概念加以注释,不提供提及任何标准化术语/本体的映射 | 文档:1 748个 |
Corpus for Disease Names and Adverse Effects40 (DNAE) | 包括使用“疾病或不良反应”查询生成的MEDLINE摘要,并对UMLS CUI中的疾病描述进行注释 | 文档:4 00个 |
疾病:1 428种 | ||
不良反应注释:813条 |
表6
基于图模型的存储方式"
图数据库 | 研发机构 | 说明 |
Neo4j | 美国Neo Technology | 将数据存储于图模式中,处理数据间关系的存储与查询 |
Graph Engine(原Trinity) | 美国微软 | 基于内存的分布式大规模图数据处理引擎 |
AllegroGraph | 美国Franz.Inc | 基于W3C标准的资源描述框架图数据库,可处理链接数据和Web语义,支持SPARQL、RDFS和Prolog |
GraphDB(原OWLIM) | 保加利亚Ontotext | 可扩展的语义图数据库,符合W3C标准,三元组存储,SPARQL查询引擎,提供可配置的推理支持和性能 |
gStore | 中国北京大学 | 基于图的RDF存储和SPARQL查询系统,用于管理大型图结构数据 |
HugeGraph | 中国百度 | 面向分析型、支持批量操作的图数据库系统,将HBase和Cassandra等常见的分布式系统作为其存储引擎来实现水平扩展 |
GeaBase | 中国阿里巴巴 | 具备高性能、高可用、高扩展性及强可移植性的实时金融级分布式图数据库 |
表7
知识图谱存储方式比较"
存储方式 | 优点 | 缺点 | 代表性系统 | |
基于关系模型 | 三元组表 | 存储结构简单 | 大量自连接操作,开销巨大 | 3store |
水平表 | 知识图谱的邻接表,存储方式简单 | 可能超出所允许的表中列数目的上限; | DLDB | |
表中可能存在大量空值; | ||||
无法表示一对多联系或多值属性; | ||||
谓语的增加、修改或删除成本高 | ||||
属性表 | 解决了三元组表的自连接问题;解决了水平表中列数目过多的问题 | 真实知识图谱需建立的关系表数量可能超过上限; | Jena | |
由于知识图谱的灵活性,表中可能存在大量空值; | ||||
无法表示一对多联系或多值属性 | ||||
垂直划分 | 解决了空值问题; | 真实知识图谱需维护大量谓语表; | SW-Store | |
解决了多值问题; | 复杂知识图谱查询需执行表连接操作; | |||
能够快速执行不同谓语表的连接查询 | 数据更新维护代价大 | |||
六重索引 | 每种三元组模式查询均可直接使用对应索引快速查找; | 需要花费6倍的存储空间开销和数据更新维护代价; | RDF-3X Hexastore | |
通过不同索引表之间的连接操作直接加速知识图谱上的连接查询 | 复杂知识图谱查询会产生大量索引表连接查询操作 | |||
DB2RDF | 既具备了三元组表、属性表和垂直划分方式的部分优点,又克服了这些方式的部分缺点; | 真实知识图谱可能存在较多溢出情况 | IBM DB2 | |
实现了列维度上的灵活度,为谓语动态分配所在列 | ||||
基于图模型 | Neo4j | 具备“无索引邻接”特性; | 成熟度不如基于关系模型的方式 | Neo4j |
边作为“一等公民”; | ||||
“定长记录”存储方式 | ||||
gStore | 基于位串的存储方式; | 成熟度不如基于关系模型的方式 | gStore | |
“VS 树”索引加快查询 |
表8
基于知识图谱的医疗问答系统使用的数据来源"
领域 | 名称 | 描述 | 用途 |
中文 | 中文症状库 | 由华东理工大学整理,该数据集包含症状实体、症状相关实体和它们的属性 | 知识图谱 |
丁香医生官网 | 提供了28种类别的医疗问答数据 | 问答库 | |
春雨医生官网 | 以聊天记录的方式提供了医患多轮问答的数据 | 问答库 | |
寻医问药官网 | 既有疾病、症状、用药、中医等百科数据,也有医患问答数据 | 知识图谱、问答库 | |
康爱多健康问答官网 | 提供了22种不同类型的问题库,包含30多万条记录 | 问答库 | |
快速问医生官网 | 主要提供了涵盖疾病、症状、检查、手术、医院5种类型的医疗信息库,也有涵盖多个科室的问答库 | 知识图谱、问答库 | |
英文 | SemMedDB | 使用知识抽取技术构建的医学知识库,包括PebMed上的医学文章的标题及摘要,规模大,但质量有限 | 知识图谱 |
医学问答对数据 | JSON格式,来源于eHealth Forum、Question Doctors、HealthTap、iCliniq以及WebMD 5个健康医疗网站 | 问答库 | |
英国国家服务医疗体系的数据库 | 按字母顺序列举了常用的疾病,包括其症状、原因和治疗方法等 | 知识图谱 | |
MedcineNet官网 | 美国的一个健康网站,提供易于阅读的权威医疗信息,包括疾病、药物、健康饮食等信息 | 知识图谱 |
表9
医学知识图谱构建关键技术及研究进展汇总"
构建过程 | 难点 | 现有技术 | 医学领域未来研究方向 |
医学本体构建 | (1)减少在本体构建过程中的人为干预 | (1)生物医学本体自动生成方法(LOD-ABOG)[ | (1)异构数据转换 |
(2)使用现有本体对文本文档进行分析,构建了命名和本体术语体系[ | (2)医学实体动态构建 | ||
(2)对医学信息的匿名化处理 | 识别映射到本体论术语的受保护健康信息的方法[ | ||
医学命名实体识别 | (1)医学实体同义词替换和缩写 | 一种共享和学习标签组件嵌入的方法[ | (1)多类别实体在不同语境、不同词性、不同类别下的应用 |
(2)医学实体较长 | 边界感知的神经网络模型[ | (2)嵌套实体的研究 | |
(3)医学实体内部嵌套 | 通过动态叠加平面NER层来识别嵌套的实体[ | (3)实体识别与实体关系抽取的结合 | |
(4)医学实体一词多义 | (1)多任务学习和语境化单词表征的方法[ | ||
(2)增加了上下文表示层次的模型[ | |||
医学实体关系抽取 | (1)自动构建大规模的语料库 | (1)一种全新的轻量级神经网络框架[ | (1)加强语料库建设 |
(2)一个新的状态表示形式,考虑了句子嵌入、关系嵌入以及所选的正向实例的嵌入[ | (2)利用联合学习方法更好地提取文本中的关系 | ||
(3)多代理强化学习模型[ | (3)实现跨句子或文档级关系抽取 | ||
(2)医学实体间的重叠关系 | (1)通过序列到序列方法共同提取实体和关系的多任务学习复制模型[ | (4)解决远程监督学习的问题,提升远程监督的效果 | |
(2)通过编码器-解码器体系结构共同提取实体和关系的方法[ | |||
(3)关系抽取中错误的传递 | (1)混合模型,包括基于转换器的编码层、LSTM实体检测模块、基于强化学习的关系分类模块[ | ||
(2)一个新的模型——SNERL[ | |||
(4)医学关系跨度大 | LSR模型,以端到端的方式构造一个文档级图来推理句间关系[ | ||
实体对齐 | (1)综合利用知识图谱的多种信息,如关系三元组、属性三元组、摘要等 | (1)参数共享联合方法和基于翻译的知识嵌入方法[ | (1)同义词、缩略词的实体对齐处理 |
(2)汇总与属性嵌入的联合方法[ | (2)数据质量良莠不齐,存在数据壁垒 | ||
(3)在较少的标签数据中训练,实现高效的实体对齐 | |||
(2)多语言知识图谱的实体对齐 | (1)新模型JEANS,在一个共享的嵌入方案中联合表示多语种的知识图谱和文本语料库[ | ||
(2)基于TransC的嵌入模型[ | |||
(3)数据异构实体对齐 | (1)一个集合图谱网络,被称为 CG Mualign,联合对齐不同类型的实体[ | ||
(2)知识图谱对齐网络AliNet,旨在以端到端的方式减轻邻域结构的非同构性[ | |||
(3)使用新的图谱采样策略来识别面向实体对齐的信息最丰富的邻居[ | |||
(4)大规模知识图谱间的实体对齐 | (1)综合利用了LSTM、GNN、哈希等技术,能够高效处理多种类型的节点以及不同类型的信息[ | ||
(2)多步骤通道,在这个通道中引入鲁棒时间属性的可伸缩特征提取,并使用聚类算法,以便在图上找到相似节点的分组[ | |||
医学实体链接 | (1)联合在命名实体识别和实体链接中建模 | (1)基于转换的联合疾病实体识别与规范化模型[ | |
(2)具有显式反馈策略的深层神经多任务学习框架[ | (1)别名实体候选生成问题 | ||
(3)开发了pyMeSHSim软件包,这是一个用于生物医学文本挖掘的集成、轻量级和数据丰富的Python包[ | (2)不完整数据集的实体链接 | ||
(2)医学实体语义模糊 | (1)联合解析同义词和缩写词的领域特定词典及基于神经网络算法组合的大量未标注数据[ | (3)基于多种语言的实体链接 | |
(2)一个新的系统Bio-YODIE[ | |||
(3)一个深度连贯模型 NormCo,它考虑了实体提及的语义,以及单个文档中提及的主题连贯性[ | |||
(4)一种基于候选知识库条目与疾病描述相似度的排序方法[ | |||
(5)一种潜在类型实体链接模型LATTE,该模型通过对实体提及和实体的潜在细粒度类型信息进行建模来改进实体链接[ | |||
(3)公开医学数据集较小 | 使用精确聚焦的辅助特征,这些辅助特征可以在少量数据中形成分类边界[ | ||
医学知识图谱存储 | (1)复杂关系的可视化 | 基于网络的图数据库工具SeQuery,通过整合序列结构和功能信息,直观地可视化蛋白质组/基因组网络[ | (1)如何根据数据的不同选择合适的系统和图模型 |
(2)用户友好的查询方式 | (1)EpiGeNet,用于存储和查询在结直肠癌发生的不同阶段观察到的分子事件(遗传和表观遗传)之间的条件关系[ | (2)数据的分布式存储 | |
(2)抗结核病NeoDB,基于Neo4j,通过将标签属性图模型绑定到合适的本体来创建[ | (3)研究硬件设施的不同对存储的影响 | ||
(3)认证和加密形式的安全保障 | 基于事务图的自适应概率安全处理方法[ |
[39] | 吴嘉敏 . 肺癌医学知识图谱的构建与分析[D]. 银川:宁夏大学, 2019. |
WU J M . Construction and analysis of lung cancer medical knowledge graph[D]. Yinchuan:Ningxia University, 2019. | |
[40] | DENG W , GUO P P , YANG J D . Medical entity extraction and knowledge graph construction[C]// Proceedings of 2019 16th International Computer Conference on Wavelet Active Media Technology and Information Processing. Piscataway:IEEE Press, 2019: 41-44. |
[41] | 张崇宇 . 基于知识图谱的自动问答系统的应用研究与实现[D]. 北京:北京邮电大学, 2019. |
ZHANG C Y . Research and implementation of automatic question answering system based on knowledge graph[D]. Beijing:Beijing University of Posts and Telecommunications, 2019. | |
[42] | HU G M , SECARIO M K , CHEN C M . SeQuery:an interactive graph database for visualizing the GPCR superfamily[J]. Database, 2019. |
[43] | BALAUR I , SAQI M , BARAT A ,et al. EpiGeNet:a graph database of interdependencies between genetic and epigenetic events in colorectal cancer[J]. Journal of Computational Biology, 2017,24(10): 969-980. |
[44] | LOSE T , HEUSDEN P , CHRISTOFFELS A . COMBAT-TB-NeoDB:fostering tuberculosis research through integrative analysis using graph database technologies[J]. Bioinformatics, 2020,36(3): 982-983. |
[1] | 柴扬帆, 孔桂兰, 张路霞 . 医疗大数据在学习型健康医疗系统中的应用[J]. 大数据, 2020,6(5): 29-44. |
CHAI Y F , KONG G L , ZHANG L X . Application of medical big data in learning health system[J]. Big Data Research, 2020,6(5): 29-44. | |
[2] | AL-ASWADI F N , CHAN H Y , GAN K H . Automatic ontology construction from text:a review from shallow to deep learning trend[J]. Artificial Intelligence Review, 2019,53: 3901-3928. |
[3] | MAZEN A , MAHMOOD M K , SUSAN S . Linked open data-based framework for automatic biomedical ontology generation[J]. BMC Bioinformatics, 2018,19(1). |
[4] | LYTVYN V , BUROV Y , KRAVETS P ,et al. Methods and models of intellectual processing of texts for building ontologies of software for medical terms identification in content classification[C]// Proceedings of IDDM.[S.l.:s.n.], 2019: 354-368. |
[5] | POLSLEY S , TAHIR A , RAJU M ,et al. Role-preserving redaction of medical records to enable ontology-driven processing[C]// Proceedings of BioNLP 2017.[S. l]:Association for Computational Linguistics, 2017: 194-199. |
[6] | AJAMI H , MCHEICK H . Ontology-based model to support ubiquitous healthcare systems for COPD patients[J]. Electronics, 2018,7(12). |
[7] | KATO T , ABE K , OUCHI H ,et al. Embeddings of label components for sequence labeling:a case study of finegrained named entity recognition[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics:Student Research Workshop.[S. l]:Association for Computational Linguistics, 2020: 222-229. |
[45] | SARANYA K , PREMALATHA K . Privacypreserving data publishing based on sanitized probability matrix using transactional graph for improving the security in medical environment[J]. The Journal of Supercomputing, 2020,76(10): 1-10. |
[46] | 翁一帆 . 一种基于知识图谱的医疗问答系统构建方法[J]. 电脑迷, 2018(14): 244-246. |
[8] | TAN C Q , QIU W , CHEN M S ,et al. Boundary enhanced neural span classification for nested named entity recognition[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020,34(5): 9016-9023. |
[9] | JU M Z , MIWA M , ANANIADOU S . A neural layered model for nested named entity recognition[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.[S. l]:Association for Computational Linguistics, 2018: 1446-1459. |
[46] | WENG Y F . A construction method of medical question answering system based on knowledge graph[J]. PC Fan, 2018(14): 244-246. |
[47] | HUANG M X , LI M L , ZHANG Y ,et al. A DIK-based question-answering architecture with multi-sources data for medical self-service[C]// Proceedings of the 2019 International Conference on Software Engineering and Knowledge Engineering.[S.l.:s.n.], 2019: 1-10. |
[10] | PHAM T H , MAI K , TRUNG N M ,et al. Multi-task learning with contextualized word representations for extented named entity recognition[J]. arXiv preprint,2019,arXiv:1902.10118. |
[11] | LUO Y , XIAO F S , ZHAO H . Hierarchical contextualized representation for named entity recognition[J]. arXiv preprint,2019,arXiv:1911.02257. |
[48] | 马晨浩 . 基于甲状腺知识图谱的自动问答系统设计与实现[D]. 上海:东华大学, 2018. |
MA C H . Design and implementation of automatic question answering system based on thyroid knowledge graph[D]. Shanghai:Donghua University, 2018. | |
[12] | LI Y , LONG G D , SHEN T ,et al. Selfattention enhanced selective gate with entity-aware embedding for distantly supervised relation extraction[J]. arXiv preprint,2019,arXiv:1911.11899. |
[13] | HE Z Q , CHEN W L , WANG Y Y ,et al. Improving neural relation extraction with positive and unlabeled learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020,34(5): 7927-7934. |
[49] | 陈志云, 商月, 钱冬明 . 基于知识图谱的智能问答系统[J]. 计算机应用与软件, 2018,35(2): 178-182. |
CHEN Z Y , SHANG Y , QIAN D M . Research on intelligent question answering system based on knowledge graph[J]. Computer Applications and Software, 2018,35(2): 178-182. | |
[14] | CHEN D Y , LI Y L , LEI K ,et al. Relabel the noise:joint extraction of entities and relations via cooperative multiagents[J]. arXiv preprint,2020,arXiv:2004.09930. |
[15] | ZENG D J , ZHANG R R , LIU Q Y . CopyMTL:copy mechanism for joint extraction of entities and relations with multi-task learning[J]. arXiv preprint,2019,arXiv:1911.10438. |
[50] | 黄魏龙 . 基于深度学习的医药知识图谱问答系统构建研究[D]. 武汉:华中科技大学, 2019. |
HUANG W L . Research on the construction of medical knowledge graph QA system based on deep learning[D]. Wuhan:Huazhong University of Science and Technology, 2019. | |
[51] | 谢刚, 吴高巍, 任俊宏 ,等. 面向患者的智能医生框架研究[J]. 计算机科学与探索, 2018,12(9): 1475-1486. |
XIE G , WU G W , REN J H ,et al. Research on intelligent doctor framework for patient[J]. Journal of Frontiers of Computer Science & Technology, 2018,12(9): 1475-1486. | |
[16] | NAYAK T , NG H T . Effective modeling of encoder-decoder architecture for joint entity and relation extraction[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020,34(5): 8528-8535. |
[17] | EBERTS M , ULGES A . Span-based joint entity and relation extraction with transformer pre-training[J]. arXiv preprint,2019,arXiv:1909.07755. |
[18] | BANSAL T , VERGA P , CHOUDHARY N ,et al. Simultaneously linking entities and extracting relations from biomedical text without mention-level supervision[J]. arXiv preprint,2019,arXiv:1912.01070. |
[19] | NAN G S , GUO Z J , SEKULI? I , ,et al. Reasoning with latent structure refinement for document-level relation extraction[J]. arXiv preprint,2020,arXiv:2005.06312. |
[52] | BO L , LUO W , LI Z ,et al. A knowledge graph based health assistant[C]// Proceedings of AI for Social Good Workshop at NeurIPS 2019.[S.l.:s.n.], 2019. |
[53] | 姚智 . 基于深度学习的医疗问答系统的开发[J]. 中国医疗设备, 2019,34(12): 88-91,141. |
[20] | E H H , CHENG R , SONG M N ,et al. A joint embedding method of relations and attributes for entity alignment[J]. International Journal of Machine Learning and Computing, 2020,10(5): 605-611. |
[21] | MUNNE R F , ICHISE R . Entity alignment for heterogeneous knowledge graphs using summary and attribute embeddings[C]// Proceedings of the 15th International Conference on Hybrid Artificial Intelligent Systems.[S.l.:s.n.], 2020: 107-119. |
[53] | YAO Z . Development of medical question-and-answer system based on deep learning[J]. China Medical Devices, 2019,34(12): 88-91,141. |
[54] | 杨笑然 . 基于知识图谱的医疗专家系统[D]. 杭州:浙江大学, 2018. |
[22] | CHEN M H , SHI W J , ZHOU B ,et al. Cross-lingual entity alignment for knowledge graphs with incidental supervision from free text[J]. arXiv preprint,2020,arXiv:2005.00171. |
[23] | KANG S Z , JI L X , LI Z J ,et al. Iterative cross-lingual entity alignment based on TransC[J]. IEICE Transactions on Information and Systems, 2020,103(5): 1002-1005. |
[54] | YANG X R . A medical answering system based on knowledge graph[D]. Hangzhou:Zhejiang University, 2018. |
[55] | SHANG J Y , XIAO C , MA T F ,et al. GAMENet:graph augmented memory networks for recommending medication combination[J]. arXiv preprint,2018,arXiv:1809.01852. |
[24] | ZHU Q , WEI H , SISMAN B ,et al. Collective multi-type entity alignment between knowledge graphs[C]// Proceedings of the Web Conference 2020.[S.l.:s.n.], 2020: 2241-2252. |
[25] | SUN Z Q , WANG C M , HU W ,et al. Knowledge graph alignment network with gated multi-hop neighborhood aggregation[J]. arXiv preprint,2019,arXiv:1911.08936. |
[56] | WANG S S , REN P J , CHEN Z M ,et al. Order-free medicine combination prediction with graph convolutional reinforcement learning[C]// Proceedings of the 28th ACM International Conference. New York:ACM Press, 2019. |
[57] | KWAK H , LEE M , YOON S ,et al. Drugdisease graph:predicting adverse drug reaction signals via graph neural network with clinical data[C]// Proceedings of the Pacific-Asia Conference on Knowledge Discovery and Data Mining. Cham:Springer, 2020: 633-644. |
[26] | WU Y T , LIU X , FENG Y S ,et al. Neighborhood matching network for entity alignment[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics..[S.l]: Association for Computational Linguistics, 2020. |
[27] | ZHANG F J , LIU X , TANG J ,et al. OAG:toward linking large-scale heterogeneous entity graphs[C]// Proceedings of the 25th ACM SIGKDD International Conference. New York:ACM Press, 2019: 2585-2595. |
[58] | WANG M , LIU M , LIU J ,et al. Safe medicine recommendation via medical knowledge graph embedding[J]. arXiv preprint,2017,arXiv:1710.05980. |
[59] | WANG X Y , ZHANG Y , WANG X L ,et al. A knowledge graph enhanced topic modeling approach for herb recommendation[C]// Proceedings of the 2019 International Conference on Database Systems for Advanced Applications. Cham:Springer, 2019: 709-724. |
[28] | FLAMINO J , ABRIOLA C , ZIMMERMAN B ,et al. Robust and scalable entity alignment in big data[J]. arXiv preprint,2020,arXiv:2004.08991. |
[29] | LOU Y X , ZHANG Y , QIAN T ,et al. A transition-based joint model for disease named entity recognition and normalization[J]. Bioinformatics, 2017,33(15): 2363-2371. |
[60] | 韩冬, 李其花, 蔡巍 ,等. 人工智能在医学影像中的研究与应用[J]. 大数据, 2019,5(1): 39-67. |
HAN D , LI Q H , CAI W ,et al. Research and application of artificial intelligence in medical imaging[J]. Big Data Research, 2019,5(1): 39-67. | |
[30] | ZHAO S D , LIU T , ZHAO S C ,et al. A neural multi-task learning framework to jointly model medical named entity recognition and normalization[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019,33: 817-824. |
[31] | LUO Z H , SHI M W , YANG Z ,et al. pyMeSHSim:an integrative python package for biomedical named entity recognition,normalization,and comparison of MeSH terms[J]. BMC Bioinformatics, 2020,21(1). |
[32] | CHO H , CHOI W , LEE H . A method for named entity normalization in biomedical articles:application to diseases and plants[J]. BMC Bioinformatics, 2017,18(1). |
[33] | GORRELL G , SONG X Y , ROBERTS A . Bio-YODIE:a named entity linking system for biomedical text[J]. arXiv preprint,2018,arXiv:1811.04860. |
[34] | WRIGHT D . NormCo:deep disease normalization for biomedical knowledge base construction[D]. San Diego:University of California,San Diego, 2019. |
[35] | MONDAL I , PURKAYASTHA S , SARKAR S ,et al. Medical entity linking using triplet network[C]// Proceedings of the 2nd Clinical Natural Language Processing Workshop.[S. l]:Association for Computational Linguistics, 2019: 95-100. |
[36] | ZHU M , CELIKKAYA B , BHATIA P ,et al. LATTE:latent type modeling for biomedical entity linking[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020,34(5): 9757-9764. |
[37] | RAJANI N F , BORNEA M , BARKER K . Stacking with auxiliary features for entity linking in the medical domain[C]// Proceedings of BioNLP 2017.[S.l]: Association for Computational Linguistics, 2017: 39-47. |
[38] | 曹明宇, 李青青, 杨志豪 ,等. 基于知识图谱的原发性肝癌知识问答系统[J]. 中文信息学报, 2019,33(6): 88-93. |
CAO M Y , LI Q Q , YANG Z H ,et al. A question answering system for primary liver cancer based on knowledge graph[J]. Journal of Chinese Information Processing, 2019,33(6): 88-93. |
[1] | 臧根林, 王亚强, 吴庆蓉, 占春丽, 李熠. 智慧城市知识图谱模型与本体构建方法[J]. 大数据, 2020, 6(2): 96-106. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||
|