【技术】从文本挖掘和机器学习中洞悉数据

文本挖掘分析的是包含在自然语言文本中的数据。它可以帮助企业从文本型数据中获得具有潜在价值的商业洞察力,比如Word文档、邮件或Facebook、Twitter、LinkedIn等社交媒体上的帖子。对于在信息检索和自然语言处理等方面应用机器学习技术这一命题,文本挖掘已成为一个重要研究领域。从某种意义上来说,它被定义为从能够在互联网上轻易获取的泛文本数据中挖掘知识的一种技术。

文本挖掘过程包含上图所示的几个步骤。 步骤1:在大量文本文件中判断哪些文件是满足需求的。一些文档聚类方法能够用于解决这个问题,这些聚类方法都是无监督的机器学习方法,最流行的文档聚类方法是K均值聚类法和层次聚类法。 步骤2:清洗文本数据。也就是从网页文本中去掉广告信息;把二进制格式的数据转换为标准文本;处理表格、图形和公式;以及其他的工作。然后,标记文本中的单词,有两种常用的方法用来标记单词,一种是基于规则的方法,它依赖于语法规则;一种是基于统计的方法,它依赖于每一种单词出现顺序的概率,并需要提前搜集一些语料库以用于机器学习,这种方法能在具体的句子里为一个有许多含义的单词选出最可能的一种含义。最后,确定语义结构,同样有两种方法用于确定语义结构,一种是全解析,它为一个句子生成一个解析树;另一种是局部解析,它将一个句子解析为语法结构,比如名词短语或动词词组。不准确的语法规则、不常见的单词、不恰当的符号化、不正确的句子拆分、错误的词性标注都会导致全解析出现错误,因此,局部解析更常用。 步骤3:将标记出的单词转换为文本表示。主要的文档表示方法是词袋和向量空间,这一过程的目的是确定哪些单词最能代表文档的主要含义。 步骤4:减少向量空间中单词的个数。不重要的单词将被去掉。 步骤5:文本挖掘能和传统的数据挖掘方法相结合。能被用于先前几个阶段处理得到的结构化数据的经典数据挖掘方法有聚类、分类、决策树、回归分析、神经网络和最近邻等。这一步骤是纯粹与应用相关的步骤。 最后一个步骤,如果结果不能令人满意,它们将作为前几个步骤的部分原始数据来源。 机器学习是发源于模式识别和人工智能的计算机科学的一个分支领域。它研究和建立一些能够从数据中获取信息并做出决策的算法。这些算法根据历史数据建立模型,以达到数据驱动决策的效果,而非根据僵化的程序指令做出决策。 计算统计是一门专门用于预测决策的学科,机器学习和计算统计密切相关,并多有重合。它和最优化也有很强的联系,最优化为机器学习提供理论方法,它使用一系列计算任务来设计算法,解决显式编程不能解决的一些问题。应用实例有垃圾邮件过滤,光学字符识别(OCR),搜索引擎和计算机视觉等。文本挖掘利用了机器学习算法在抽取特征、降维、去除不相关属性等方面的优势。比如,文本挖掘能利用机器学习进行情感分析,而情感分析又被评论和社交媒体广泛应用于从市场营销到客户服务的一系列领域,它能够确定一篇文档中作者对某些主题的情感倾向。这些倾向反应了作者的判断、评价、积极程度或预期的情感态度。文本挖掘中的机器学习算法也包括决策树、关联规则、神经网络、逻辑归纳、支持向量机、贝叶斯网络、遗传算法、稀疏的字典学习等。 作者:Murat Yazici

PPV课翻译小组作品,未经许可严禁转载

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

机器学习工作流程(第1部分)

在这篇文章中,我的目标是提出鸟瞰图,我将在后面的章节中详细讲解每个组件。

44710
来自专栏AI研习社

如何解决自然语言处理中 90% 的问题

本文为雷锋字幕组编译的技术博客,原标题How to solve 90% of NLP problems: a step-by-step guide,作者Emm...

29360
来自专栏AlgorithmDog的专栏

强化学习系列之二:模型相关的强化学习

文章目录 [隐藏] 1. 策略迭代 1.1 策略评估 1.2 策略改进 2. 价值迭代 3. 总结性结尾(好魔性的标题) 强化学习系列系列文章 上一...

24880
来自专栏机器之心

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型,在真实任务中表现优异

48620
来自专栏机器学习算法原理与实践

强化学习(二)马尔科夫决策过程(MDP)

    在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简...

25730
来自专栏机器之心

资源 | 谷歌开源AdaNet:基于TensorFlow的AutoML框架

结合不同机器学习模型预测的集成学习在神经网络中得到广泛使用以获得最优性能,它从其悠久历史和理论保证中受益良多,从而在 Netflix Prize 和多项 Kag...

9930
来自专栏超智能体

超智能体S01:什么是机器学习

30550
来自专栏AI科技评论

学界 | AAAI 18论文解读:基于强化学习的时间行为检测自适应模型

AI 科技评论按:互联网上以视频形式呈现的内容在日益增多,对视频内容进行高效及时的审核也变得越来越迫切。因此,视频中的行为检测技术也是当下热点研究任务之一。本文...

37460
来自专栏ATYUN订阅号

【学术】使用机器学习来进行自动化文本分类

数字化已经改变了我们处理和分析信息的方式。信息的在线可用性呈指数增长。从网页到电子邮件、科学期刊、电子书、学习内容、新闻和社交媒体都充满了文本数据。其理念是快速...

38880
来自专栏大数据智能实战

DeepCut及DeeperCut:基于Tensorflow的人体姿态估计

  人体姿态估计是机器视觉的一个重要分支,在行为识别、人机交互、游戏、动画等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热...

55870

扫码关注云+社区

领取腾讯云代金券