首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

知识图谱 常用知识获取的方法

模式一:众包:

Freebase 允许任何人创建、修改、查询的知识库,这是常说众包模式。Freebase里面存储的不是大段的文本,而是结构化良好、机器也可读的数据格式。2010年收购,2015年关闭。Freebase —>WikiData模式二:标准共建网站的开发者能够将网页中出现的实体、实体属性,按照某种约定的规则做上标记,Google等搜索引擎的爬虫就能方便的获取到这些有价值的数据,从而可以达到扩充知识图谱数据的目的。schema.org模式三:机器学习Knowledge Vault通过机器学习将数据变成可理解的知识;机器学习,自动挖掘知识是未来的一个方向。四:垂直领域工程实践最佳选择:专家法

国内外知识图谱资源:国际(Google)Ting: Action、CreativeWork、Event、Intangible、Organization、Person、Place、ProductDataType: Boolean、Date、DateTime、Number、Text、Time国际(UMLS)统一医学语言系统(Unified Medical Language System,UMLS)是美国国立医学图书馆(National Library of Medicine,NLM)于1986年开始建设的一体化医学知识语言,具有集成性、跨领域和工具化的特点。应用:UMLS在信息检索(Information Retrieval)、自然语言处理(NLP)、电子病历(Electronic Patient Records)、健康数据标准(Health Data Standards)等方面得到了广泛的研究和应用。示例:NLM应用NMLS的系统和项目主要有PubMed,提供对Medline和其他相关数据库的免费检索;NLM Gateway,提供对NLM多个系统的集成检索,包括Medline、OLD Medline、LocatorPlus、PubMed、AIDS Meetings、HSRProj和MedlinePlus等UMLS的目标是力图使计算机系统能够理解生物医学和健康语言。因此,NLM发布了ULMS知识源(数据库)和相关软件工具(程序),供医学信息学领域的信息系统开发人员和信息研究人员使用。UMLS包括以下4大部分:

超级叙词表(Metathesaurus),是UMLS知识源的核心,由来自各种受控词表的概念和术语以及它们之间的关系所构成;

语义网络(Semantic Network),是对超级叙词表概念的分类和分类之间的关系;

专家辞典(SPECIALIST Lexicon),是一个词典信息库,用于自然语言处理;

支持性的软件工具,各种利用UMLS的工具和程序。

(1)来源的广泛行、异构性与多语言性

超级叙词表是UMLS构成的基础。截止2011年的最新版本(2011AB),超级叙词表包含有260万个概念和860万个唯一概念名称,这些概念来源于161个词表源,其类型包括主题词表、分类系统、标题表、代码表、本体等,涉及19个语种。从当前受控词表集成的规模来看,UMLS具有空前的广泛性、异构性和多语言性。(2)建设的开发性和可持续性UMLS超级词表的概念体系是一个不断积累建设的过程,1993年,它的来源词表只有15个,2007年增至136个来源词表,17个语种。UMLS具有良好的维护和更新机制,包括词表新增、词表版本更新、错误修正等。NLM网站的What's New,Updated Sources 和 Release Documentation 的统计部分发布UMLS的更新情况。

国内(openkg)由兴趣组织(一些大学和公司)在做,体系和专业度还不是很够,还不能达到生产和应用。国内(TCMLS)中医药学语言系统(Traditional Chinese Medicine Language System,TCMLS):是以中医药学科体系为核心,遵循中医药学语言特点,借鉴语义网络的理念,建立的一个中医药学语言集成系统。它的词库涵盖了中医药学科系统及与中医药学科相关联的生物、植物、化工等自然与人文科学专业词汇。中医药学语言系统(TCMLS):共收录约10万个概念、30万个术语以及127条语义关系。中医药学语言系统的语义网络框架包括128中语义类型以及58种语义关系。其中,语义类型对应网络节点,语义关系对应节点之间的弧。语义网络框架为建立具体概念之间的语义关系提供参考和约束;中国中医科学院中医药信息研究所(2002-2014)采用本体(Ontology)的方法,对中医药的概念和术语进行系统梳理和精确表达;ISO-2014ISO/TS 17948:2014 Health informatics — Traditonal Chinese medicine literature metadata语义类型:96语义关系:58

其他语言知识图谱:

WordNet: 155,327个单词,同义同集117,597个,同义同集之间由22种关系连接

事实性知识图谱

OpenCyc: 23.9万个实体,1.5万个关系属性,209.3万个事实三元组

Freebase: 4000多万实体,上万个属性关系,24多亿个事实三元组

DBpedia: 400多万实体,48,293种属性关系,10亿个事实三元组

YAGO2: 980万实体,超过100个属性关系,1亿多个事实三元组

百度百科:词条数1000万个

互动百科:800万词条,5万个分类,68亿文字

领域知识图谱

Kinships: 描述人物之间的亲属关系,104个实体,26种关系,10800个三元组

UMLS: 医学领域,描述医学概念之间的联系,135个实体,49种关系,6800个三元组

Cora: 2497个实体,7种关系,39255个三元组

机器自动构建的知识图谱

NELL: 519万实体,306种关系,5亿候选三元组

Knowledge Vault: 4500万实体,4469种关系,2.7亿三元组

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190119G000S500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券