【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【导读】由于互联网领域的蓬勃发展,人们获取信息的便捷性越来越高,但也面临着信息过载的问题,因此,对自然语言处理的技术需求逐渐增多。本周,我们为大家整理了韩家炜团队最新发布的KDD大会教程:文本语料的多维文本分析,希望帮助大家理解相关问题。

摘要

在今天的信息社会中,我们被大量的文本数据包围,从新闻文章和社交媒体,到研究文献、医疗记录和公司报告。数据挖掘研究者面临大一大挑战是,如何设计有效并且具有可扩展特性的方法来挖掘此类庞大的非结构化文本语料库,以发现隐式结构并生成多维的文本异构信息网络,从中可以根据用户的需求生成可操作的知识。

在本教程中,我们介绍了数据驱动的方法,以便从不同类型的文本语料库构建结构化文本多维数据集(特别是对于大规模的,特定领域的文本语料库)。这种文本异构网络可以提供更多结构信息和指导来进一步增强数据挖掘能力。我们专注于弱监督、与领域无关的、语言无关的方法,以便在各类领域可以实现快速的、高质量的文本网络构建。进而,在真实的数据集上示范了,如何在新闻文章、科学出版物、产品评论等信息上,构建文本信息网络以协助对大规模文本语料库进行多维分析。

大纲

  • 介绍
    • 动机和现有技术
    • 多维度分析概述
  • 短语挖掘和实体识别
    • 什么是优质短语
    • 监督方法
      • 名词短语分块方法
      • 命名实体识别方法
      • 序列标记的神经网络模型
      • 基于解析的方法
      • 如何在语料库级别对实体进行排名
    • 无监督方法
      • 基于原始频率的方法
      • 基于协调的方法
      • 基于主题模型的方法
      • 比较方法
    • 弱、远监督方法
      • 短语分词及其变体
      • 如何利用远监督?
  • 命名实体识别
    • 什么是命名实体识别
    • 手工制作特征+人监督
      • 经典模型:条件随机场
      • 斯坦福NER
      • 推特NER
    • 自动特征+人监督
      • LSTM-CRF,LSTM-CNN-CRF
      • LM-LSTM-CRF,EMLo,Flair
      • 多任务学习
    • 自动特征+远监督
      • AutoEntity, SwellShark, ClusType, Distant-LSTM-CRF, …
      • FuzzyCRF & AutoNER
  • 分类库建设
    • 基于聚类的分类标准构建
      • 分层主题建模
      • 通用图模型方法
      • 层次聚类
    • 基于实例的分类学构建
      • 使用资源概述
      • 基于模式的方法
      • 监督方法
      • 弱监督方法
  • 文本立方体构建以及有效知识发现的多维探索
    • 监督模型
      • 文本分类模型
      • 合适的立方体构建
    • 弱监督和无监督模型
      • 弱监督模型
      • 无监督模型
    • 基于文本立方体的多维分析
      • 统计方法汇总
      • 基于短语的细胞总结
      • 基于N-gram的排名和探索
    • 将文本立方体与HIN的整合
      • HIN潜入
      • cube-aided HIN嵌入和挖掘
  • 总结以及未来的方向
    • 多维文本分析
      • 原理和技术
      • 优点和局限
      • 如何基于你的应用选择合适的方法?
    • 未来发展方向

作者简介

Jingbo Shang,伊利诺伊州香槟分校的博士生。研究重点是从大量文本语料库中挖掘和构建结构化知识。他于2017年获得Google全球博士学位结构化数据和数据库管理奖学金和Yelp数据集挑战大奖。

韩家炜,伊利诺伊大学计算机科学系教授,研究方向是数学挖掘,信息网络分析和数据库系统。曾担任TKDD的创始主编。获奖经历丰富,曾获得ACM SIGKDD创新奖(2004年),IEEE计算机学会技术成就奖(2005年),IEEE计算机学会W. Wallace McDowell奖(2009年),以及UIUC的Daniel C. Drucker杰出教师奖(2011年),ACM和IEEE Fellow,陆军研究实验室网络科学-写作技术联盟(NS-CTA)计划支持的信息网络学术研究中心(INARC)主任。

原文链接:

https://shangjingbo1226.github.io/2018-04-21-kdd-tutoria

-END-

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-08-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

为什么你需要改进训练数据,如何改进?

Andrej Karpathy 在他的 Train AI 演讲中展示了这张胶片,我非常喜欢。这张胶片完美地揭示了深度学习在研究与生产间的区别。通常来说,学术论文...

931
来自专栏新智元

【重磅】灵长类动物脸部识别算法被破译,大脑黑箱或根本不存在

【新智元导读】发表在 Cell 的一项研究揭示了人脸识别的具体神经元活动过程。对猕猴的实验表明,对脸部的识别是由大脑中 200 多个不同神经元共同编码完成的,每...

3966
来自专栏机器之心

Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师

今年 1 月,谷歌人工智能负责人 Jeff Dean(当时还是谷歌大脑负责人)与 2017 年图灵奖得主、体系结构巨擘 David Patterson(当时获奖...

984
来自专栏AI科技评论

业界| 英特尔中国研究院深度学习领域最新成果——“动态外科手术”算法

编者注:本文为英特尔中国研究院最新研究成果,主要介绍了一个名为“动态外科手术”算法,有效地解决了处理大型网络时重训练时间长,误剪枝率高的问题。利用该算法,我们可...

3083
来自专栏PPV课数据科学社区

【学习】关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞featu...

5218
来自专栏AI科技评论

学界 | MIT周博磊团队:时序关系网络帮助计算机填补视频帧之间的空白

AI 科技评论按:如果你向一个人仅仅展示一段视频中的几帧,他通常可以推测出视频里发生的是什么事件以及屏幕上会显示出什么。例如,如果我们在视频开始时的帧中看到了一...

1333
来自专栏AI科技评论

从计算机视觉的小白变为大神,你需要经历这七个阶段

如果想要机器能够进行思考,我们需要先教会它们去看。 李飞飞——Director of Stanford AI Lab and Stanford Vision...

3755
来自专栏AI科技大本营的专栏

ICML进行时 | 一文看尽获奖论文及Google、Facebook、微软、腾讯的最新科研成果

【导读】 ICML ( International Conference on Machine Learning),国际机器学习大会如今已发展为由国际机器学习学...

1114
来自专栏大数据挖掘DT机器学习

你还在用“人工特征工程+线性模型”?

作者:李沐M 11年的时候我加入百度,在凤巢使用机器学习来做广告点击预测。当时非常惊讶于过去两年内训练数据如此疯狂的增长。大家都在热情的谈特征,每次新特征的...

3708
来自专栏AI科技大本营的专栏

资源 | 普通程序员如何自学机器学习?这里有一份指南~

机器学习工程师自学指南! 本文将会介绍机器学习的方方面面,从简单的线性回归到最新的神经网络,你不仅仅能学会如何使用它们,并且还能从零进行构建。 以下内容以计算机...

3526

扫码关注云+社区

领取腾讯云代金券