前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >知识图谱构建

知识图谱构建

作者头像
DC童生
发布2018-08-27 16:58:58
7.3K1
发布2018-08-27 16:58:58
举报
文章被收录于专栏:机器学习原理机器学习原理
  • 本体和实体

概念

例子

主题

人工智能 互联网 手机

概念层

深度学习 自动驾驶 机器学习 职能手机

实体层

特斯拉,iphonex,siri

事件层

特斯拉撞车,三星手机爆炸,华为发布p20

  • 数据来源: 技术文档 结构化数据

知识抽取

步骤如下:

1 实体识别NER(对专业实体进行分类标记,训练数据,从文中中实现自动抽取专业实体):https://cloud.tencent.com/developer/article/1196139

关键技术:

  • 分词(备选)
  • 对专业词汇进行精准的分类和标注
  • 边界识别(BIO BIEOS)
  • 模型 膨胀卷积,lstm crf
  • 性能评估,准确率高

2 关系抽取;关系抽取的方法很多,基于模板的准确率高,最近出了一些基于端对端深度学习的关系抽取,attention-bilstm模型

  • 给予模板的关系抽取,例如:老婆、妻子、配偶都是夫妻关系。
  • 基于依存句法分析的关系抽取(主谓宾),
代码语言:javascript
复制
主语谓语宾语关系    (父亲, 是, 来自肯尼亚留学生)
定语后置动宾关系    (留学生, 来自, 肯尼亚)
主语谓语宾语关系    (母亲, 是, 堪萨斯州白人)
定语后置动宾关系    (期间, 就读, 夏威夷大学)
主语谓语宾语关系    (父亲, 前往, 哈佛大学)
主语谓语宾语关系    (奥巴马, 前往, 印度尼西亚首都雅加达)
人名/地名/机构    (印度尼西亚, 首都, 雅加达)
主语谓语宾语关系    (他一家, 回到, 夏威夷)
介宾关系主谓动补    (他, 就读于, 位于火奴鲁鲁大型私立学校普纳荷学校中华民国第一任临时大总统孙文就读)
定语后置动宾关系    (大型私立学校, 位于, 火奴鲁鲁)
主语谓语宾语关系    (他, 迁居, 美国本土)
主语谓语宾语关系    (奥巴马, 取得, 社会认同)
主语谓语宾语关系    (他, 过, 一段荒唐日子)
主语谓语宾语关系    (十几岁他, 成, 一个瘾君子)
主语谓语宾语关系    (来, 是, 谁)
主语谓语宾语关系    (问题, 挤出, 脑袋)
主语谓语宾语关系    (带来深刻影响, 是, 他父母亲)
主语谓语宾语关系    (他外祖父斯坦利·埃默·邓汉姆, 是, 影响青年奥巴马人物)
主语谓语宾语关系    (戴维斯, 成为, 奥巴马家里常客)
定语后置动宾关系    (大本营拉卡, 组织, 伊斯兰国)
主语谓语宾语关系    (组织伊斯兰国大本营拉卡, 开始, 出现恐慌)
主语谓语宾语关系    (拉卡市, 位于, 叙利亚北部)
主语谓语宾语关系    (当地居民, 说, 武装进逼)
主语谓语宾语关系    (俄罗斯, 加强, 空袭)

具体可见:https://cloud.tencent.com/developer/article/1196141

  • bootstrpping 半监督学习,语义容易漂移,操作简单不不需要人工标注和斯坦福大学的deepdive差不多,属于半监督关系抽取,抽取非结构化文本构建通用知识图谱。

3 事件抽取

知识融合

主要是针对同义词,同名不同实体,同实体不同名字。(暂时了解这么多)

知识储存

分为:图数据库,NoSQL数据库,关系数据库

若结构复杂,关系复杂,用neo4j数据库

这两天最近学的neo4j的成果:

环境安装,cypher语句,实体关系创建和查询,数据的导入等

https://cloud.tencent.com/developer/article/1196142

https://cloud.tencent.com/developer/article/1196140

知识推理

基于owl本体推理;例:mother是women;women属于person=》mother属于person

已经做好的知识图谱例子

基于知识图谱的电影自动问答系统

https://blog.csdn.net/qq_30843221/article/details/54884151

农业领域的知识图谱构建

https://blog.csdn.net/kjcsdnblog/article/details/79747460

公开知识图谱数据

  • 中文 1复旦知识工厂 2wikidata中文 3zhishi.me
  • 国外 freebase DBpedia yago wolframalpha

启示

  • 界定好范围,明确好场景和问题的定义
  • 知识的定义比较关键,根据场景进行相关领域定义,定义出领域概念层次结构,以及概念之间的关系类型定义
  • 数据是基础,利用好已有数据(百科,以及通用知识图谱)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.08.14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 知识抽取
  • 知识融合
  • 知识储存
  • 知识推理
  • 已经做好的知识图谱例子
  • 公开知识图谱数据
  • 启示
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档