【数据挖掘】用文本挖掘和机器学习洞悉数据

文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力,比如Word文档,邮件和社交媒体流中发布的帖子,如Facebook,Twitter,和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言,文本挖掘已经成为一个重要的研究领域。在某种意义上,它被定义为在无处不在的文本中发现知识的方式,而这些文本可以在网络上轻易获取。

文本挖掘是一个包含几个步骤的过程。

第一步:适合应用的文档一般是确定的大量文本数据。文档聚类方法经常用语解决“大量”这个问题。这些方法是非监督的学习方法,最受欢迎的文档聚类方法是K-means聚类和凝聚层次聚类。

第二步:文本是被清洗了的——它从网页上的广告中拆离出来;标准化文本从二进制格式转换而来;表、数字等式都是经过处理的;还有其它的等等。然后,将文本中的词语与对应的词类标记的步骤开始进行。有两种方法标出词语:一个是基于规则方法,依赖于语法规则;一个是基于统计的方法,它依赖于不同的词序概率,并且需要一个用来机器学习的手工且有针对性的语料库。之后,一个词语在依据给定的话句子中所含有的拥有的许多不同的含义确定了。最后,语义结构明确下来。有两种方式来确定语义结构:完全语法分析,它会对一个句子会产生一个分析树,是部分语法分析的组合,部分语法分析会产生一个句子的语法结构,比如名词短语和动词组。产生一个完整分析树经常失败,因为语法不准确、异常词汇、糟糕的符号化、不正确的句子拆分、词性的标准错误和其它等等原因。因此,分块和部分分析更为常用。

第三步:这些词语(特征)决定了文本表示。最基本的文档表示方法有词袋法和向量空间。这些方法的目标在于确定哪些特征可以最好的描述一个文档。

第四步:特征的维度被降低。为此,无关的属性将被移除。

第五步:文本挖掘过程与传统的数据挖掘过程结合。经典的数据挖掘技术如聚类,分类,决策树,回归分析,神经网络和近邻取样将被用在之前的阶段所得到的结构化数据库上。

在最后的步骤中,如果结果不令人满意,它们将会用做文本挖掘一个或多个早期阶段所投入的一部分。

机器学习是计算机科学的一个分支,它来源于模式识别研究好人工智能中计算学习理论。它探索了算法的研究和建立,认为可以从数据中进行学习并对数据进行预测。这样的算法运行是通过样例的输入来建立模型,从它成为以数据作为驱动的预测或者决策,而不是遵循严格的静态程序指令。

机器学习与计算统计学非常相关,并且经常有所重叠——也是一个专门研究预测制定的学科。它和数学最优化法有很强的关系,提供了方法、理论和应用领域。它是使用一系列的计算任务,其中显示算法设计和编程都不可用。示例应用程序包含垃圾邮件过滤,光学字符识别(OCR),搜索引擎和计算机视觉。文本挖掘利用机器学习在决定功能,降低维数和删除不相关的属性上的特别优势。例如,文本挖掘将机器学习用于情绪分析,它广泛的应用于评论到社交媒体,涵盖了从营销到客户服务各种不同的而应用程序。它的目的是确定一个说话者或写作者对一些话题的态度,或者是一个文档整体语境的极性判定。这个态度可能是他或者她的判断或评价,情感状态或情感交流。文本挖掘中机器学习算法包括决策树学习,关联规则学习,人工神经学习,归纳逻辑编程,支持向量机,贝叶斯网络、遗传算法和稀疏字典的学习。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2016-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

手工艺品电商平台Etsy的个性化推荐

16830
来自专栏机器之心

学界 | 机器学习研究趋势分析:TensorFlow已超越Caffe成研究最常用框架

选自Medium 作者:Andrej Karpathy 机器之心编译 参与:李亚洲 开玩笑地说,现在提交论文的主题是不是应该围绕把全卷积编码器解码器BatchN...

37670
来自专栏新智元

【TensorFlow超级指南】你能想到的TF教程和资源都在这里了

【新智元导读】众所周知,TensorFlow已然成为机器学习的热门工具。不论是学习还是从事与机器学习相关的工作,能够灵活使用TensorFlow可以大幅提高作业...

11820
来自专栏算法+

大话音频变声原理 附简单示例代码

在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,

49620
来自专栏机器之心

资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)

项目地址:https://github.com/facebookresearch/XNLI

20430
来自专栏IT派

如何在机器学习竞赛中更胜一筹?

机器学习很复杂。你可能会遇到一个令你无从下手的数据集,特别是当你处于机器学习的初期。 在这篇文章中,你将学到一些基本的关于建立机器学习模型的技巧,大多数人都从中...

35570
来自专栏机器之心

学习了!谷歌今日上线基于TensorFlow的机器学习速成课程(中文版)

机器之心整理 参与:思源、许迪 随着机器学习越来越受到公众的关注,很多初学者希望能快速了解机器学习及前沿技术。而今天谷歌上线了基于 TensorFlow 的机...

29760
来自专栏大数据文摘

RNN和LSTM弱!爆!了!注意力模型才是王道

20670
来自专栏量子位

骗过70%的人!这个AI能自动给视频配音,真假难辨(不服来试)

安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 先来做个“真假美猴王”的游戏。 视频内容 你将看到两段画面相同的视频,请判断哪段来自视频原声,哪...

41450
来自专栏鸿的学习笔记

深度学习的五种分类

卡洛斯佩雷斯为深度学习为基础的AI给出了自己的分类。这个分类让我们知道我们目前在哪里,我们可能走向哪里。

14010

扫码关注云+社区

领取腾讯云代金券