知识图谱
To Do Task:
- 知识的模式具体是什么?如何定义?如果以医疗健康为demo,如何定义?
- 关系抽取是如何实现的?
- 以消化系统疾病为demo,如何找到尽可能多的相关实体?
Process (to be updated):
图谱示例
- 医疗知识图谱系统
- 图谱组成:由模式图、数据图组成。
- 模式图:对人类知识领域的概念层面进行描述,强调概念及概念关系的形式化表达,模式图中节点是概念实体,边是概念间的语义关系,如 part-of。
- 数据图:对物理世界层面进行描述,强调一系列客观事实。数据图中的节点有两类,一是模式图中的概念对应的实体,二是描述性字符串,数据图中的边是具体事实的语义描述。
- 知识图谱基本要素
- 概念:概念的含义比实体的含义更加抽象,是比较普遍的想法、观念或充当命名实体、事件或关系的范畴或一类的实体。比如,城市是一个概念,而深圳应该作为一个实体。
- 实体:是指具有可区别性且独立存在的某种事物(有点像面向对象编程里的Object)。如某一种动物、某一个城市、某一种水果、某一类商品等等。世界万物有具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
- 关系:用来连接两个实体,刻画它们之间的关联。形式化为一个函数,它把kk个点映射到一个布尔值。在知识图谱上,关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。
- 属性:主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等。
- 属性值:主要指对象指定属性的值,例如国籍对应的“中国”、生日对应1988-09-08等。每个属性-属性值对可用来刻画实体的内在特性。
- 模式图和数据图之间的关系
指数据图的实例与模式图的概念之间的对应,或者说模式图是数据图的模具。
![顶层结构图](./img/kgexample2.png)
![结构图](./img/kgexample.png)
![结构图](./img/kgexample1.png)
构建过程
- 构建过程
- 知识抽取
- 实体识别
- 关系抽取
医学实体关系抽取归结为两类:a)同类型医学实体层级关系抽取,如疾病的“肠胃病-慢性胃炎”等;b)不同类型关系抽取,如“疾病-症状”等。- (subClassOf, equivalentClass)
- 基于深度学习的关系抽取
- "关系抽取"讨论
- Neural Relation Extraction with Multi-lingual Attention
- 属性抽取
属性抽取是指对属性和属性值对( attribute-value pair,AVP)的抽取,其中属性的抽取是指为医学实体构造属性列表,如药品的属性包括适应症、禁忌症等。
- 实体识别
- 知识融合
知识融合是高层次的知识组织,使不同来源的知识在同一框架规范下进行数据整合、消歧、加工、推理验证、更新等步骤,目的是解决知识复用的问题,增强知识库内部的逻辑性和表达能力。- 实体对齐( entity alignment)
也称为实体匹配或实体解析, 是判断相同或不同数据集中的2个实体是否指向真实世界同一对象的过程. - 实体链接( entity linking)
指从文本中抽取得到的实体对象, 将其链接到知识图谱中对应的正确实体对象的操作.
- 实体对齐( entity alignment)
- 知识存储
论文
开源代码
数据源
- 通用知识库(直接把其中的概念和实体解析成知识图谱形式的概念和实体即可)
- 百科(把百科文章的标题作为实体的候选,而把百科中的分类作为概念的候选)
- 行业百科
- 百度医疗
- 搜狗名医
- 行业数据库
- D2R是一种基于XML的语言,可以将结构化数据转化为知识的RDF描述,从而引入到知识图谱中
- ICD-10国际疾病分类 Excell文件
- ICD-11 Beta Draft
- 1010个临床路径 目录 文件
- 行业知识库
- 行业网站
- 行业文献(行业文献的关键字作为实体)
- 药物副作用网站 Sideeffect
- 药物靶向的蛋白质protein targeted by a drug
- 梅奥症状诊断工具Symptom Checker
- CMS 2008-2010 Data Entrepreneurs’ Synthetic Public Use File