专栏首页数据科学与人工智能【数据挖掘】用文本挖掘和机器学习洞悉数据

【数据挖掘】用文本挖掘和机器学习洞悉数据

文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力,比如Word文档,邮件和社交媒体流中发布的帖子,如Facebook,Twitter,和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言,文本挖掘已经成为一个重要的研究领域。在某种意义上,它被定义为在无处不在的文本中发现知识的方式,而这些文本可以在网络上轻易获取。

文本挖掘是一个包含几个步骤的过程。

第一步:适合应用的文档一般是确定的大量文本数据。文档聚类方法经常用语解决“大量”这个问题。这些方法是非监督的学习方法,最受欢迎的文档聚类方法是K-means聚类和凝聚层次聚类。

第二步:文本是被清洗了的——它从网页上的广告中拆离出来;标准化文本从二进制格式转换而来;表、数字等式都是经过处理的;还有其它的等等。然后,将文本中的词语与对应的词类标记的步骤开始进行。有两种方法标出词语:一个是基于规则方法,依赖于语法规则;一个是基于统计的方法,它依赖于不同的词序概率,并且需要一个用来机器学习的手工且有针对性的语料库。之后,一个词语在依据给定的话句子中所含有的拥有的许多不同的含义确定了。最后,语义结构明确下来。有两种方式来确定语义结构:完全语法分析,它会对一个句子会产生一个分析树,是部分语法分析的组合,部分语法分析会产生一个句子的语法结构,比如名词短语和动词组。产生一个完整分析树经常失败,因为语法不准确、异常词汇、糟糕的符号化、不正确的句子拆分、词性的标准错误和其它等等原因。因此,分块和部分分析更为常用。

第三步:这些词语(特征)决定了文本表示。最基本的文档表示方法有词袋法和向量空间。这些方法的目标在于确定哪些特征可以最好的描述一个文档。

第四步:特征的维度被降低。为此,无关的属性将被移除。

第五步:文本挖掘过程与传统的数据挖掘过程结合。经典的数据挖掘技术如聚类,分类,决策树,回归分析,神经网络和近邻取样将被用在之前的阶段所得到的结构化数据库上。

在最后的步骤中,如果结果不令人满意,它们将会用做文本挖掘一个或多个早期阶段所投入的一部分。

机器学习是计算机科学的一个分支,它来源于模式识别研究好人工智能中计算学习理论。它探索了算法的研究和建立,认为可以从数据中进行学习并对数据进行预测。这样的算法运行是通过样例的输入来建立模型,从它成为以数据作为驱动的预测或者决策,而不是遵循严格的静态程序指令。

机器学习与计算统计学非常相关,并且经常有所重叠——也是一个专门研究预测制定的学科。它和数学最优化法有很强的关系,提供了方法、理论和应用领域。它是使用一系列的计算任务,其中显示算法设计和编程都不可用。示例应用程序包含垃圾邮件过滤,光学字符识别(OCR),搜索引擎和计算机视觉。文本挖掘利用机器学习在决定功能,降低维数和删除不相关的属性上的特别优势。例如,文本挖掘将机器学习用于情绪分析,它广泛的应用于评论到社交媒体,涵盖了从营销到客户服务各种不同的而应用程序。它的目的是确定一个说话者或写作者对一些话题的态度,或者是一个文档整体语境的极性判定。这个态度可能是他或者她的判断或评价,情感状态或情感交流。文本挖掘中机器学习算法包括决策树学习,关联规则学习,人工神经学习,归纳逻辑编程,支持向量机,贝叶斯网络、遗传算法和稀疏字典的学习。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【陆勤学习】文本特征提取方法研究

    一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大...

    陆勤_数据人网
  • 【数据挖掘】金融行业的数据挖掘之道

    工商银行文本挖掘技术应用探索分享 工商银行在大家传统的印象当中是一个体形非常庞大但是稳步前行的形象,但是近些年来在大数据的挑战下工商银行积极应对外界变化,做一些...

    陆勤_数据人网
  • 【应用】Python做文本挖掘的情感极性分析

    「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。其中...

    陆勤_数据人网
  • <i>标签

    Html5知典
  • 文本挖掘 – Text mining

    文本摘要:许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。

    easyAI
  • <b>标签

    <b> 标签定义一段加强表示的文本,但并不表达额外的重要性、暗示需要加重的语气和声调。比如文档摘要里的关键字、产品评价里的产品名字、可以与之交互的文本等等。

    Html5知典
  • 海量短文本场景下的去重算法

    在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担...

    腾讯QQ大数据
  • 海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)

    这是一个相似匹配的问题(文本相似匹配基础→ 词频与余弦相似度)。但是,亿级数据库,用传统的相似度计算方法太慢了,我们需要一个文本查询方法,可以快速的把一段文本的...

    数说君
  • 【NLP保姆级教程】手把手带你RCNN文本分类(附代码)

    之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?

    kaiyuan
  • 浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

    【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting...

    Amusi

扫码关注云+社区

领取腾讯云代金券