前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

作者头像
用户1737318
发布于 2018-06-05 05:37:12
发布于 2018-06-05 05:37:12
2.6K0
举报
文章被收录于专栏:人工智能头条人工智能头条

本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋势识别。

在本篇博客帖中,你将会学习到如何将机器学习技术应用到文本挖掘中。我将会向你展示如何使用RapidMiner(一款流行的预测分析开源工具)和亚马逊S3业务来创建一个文件挖掘应用。亚马逊S3业务是一项易用的存储服务,可使组织在网页上的任何地方存储和检索任意数量的数据。

掘模型产生的结果可以得到持续的推导并应用于解决特定问题

为什么使用文本挖掘技术?

文本挖掘技术帮助你在大量的肉眼不可见的文本内容中隐藏的文本模式和关系,带来了新的商机和进程的改进。使用文本挖掘技术可以节省你的时间和资源,因为文本挖掘进程可以实现自动化,文本挖掘模型产生的结果可以得到持续的推导并应用于解决特定问题。

这些技术可以帮助你:

  • 从大量的文本内容中提取关键概念,文本模式和关系。
  • 以主题(例如旅行和娱乐)为依据,在文本内容中识别各种趋势,以便理解用户情感。
  • 从文档中概括内容,从语义上理解潜在内容。
  • 索引和搜索文本以便在预测分析中使用。

正如你所看到的,除了事务性内容外,如果你不分析文本内容,你可能错失重大的机遇.

以前文本挖掘所面临的障碍

在过去,从大量的文本中提取有价值的透彻分析通常很难。提取有价值的透彻分析需要技艺精湛的IT人才来执行复杂的编程和建模任务。另外,在维持性能和创新周期所要求的速度和灵敏度的条件下,所具有的基础设施简直无法满足处理大量非结构化文本的要求。工具与潜在基础设施的集成则是面临的另一个挑战。这通常导致数据和工具从一个环境迁移到另一个环境。此外,商业用户发现很难解读这些结果。易于挖掘和分析的结构化数据变成大多数数据分析任务的主要数据源。结果是大量的文本内容实际上未被使用。

文本分析的新近发展

数据和云基础设施已经取得了巨大的进步。这包括机器学习和文本挖掘领域可用的各种工具和技术。伴随着这些发展,速度,创新和可扩展性现在变成了可能。在组织使用分析学方面也已经出现了根本性的转变:不是应对过去的趋势,组织通过根据当前事件预测未来趋势而变得主动。多亏了AWS提供的各种云基础设施服务和诸如RapidMiner,组织不再需要先进的编程技术就可以在可扩展和持久的环境中快速地分析文本内容了。RapidMiner工具综合了机器学习,文本挖掘和可视化能力。

文本挖掘流程

大多数文本挖掘遵循以下的典型流程:

1.识别和提取待分析的文档。应用结构化的,统计的和语言技术(通常是共同应用)来识别,标识和提取各种成分,例如实体,概念和关系。

2.应用统计学的模式匹配和相似性技术来将文档分类并根据特定的分组或分类组织提取出的特征。潜在的非结构化数据转化为易于分析的结构化数据。分类过程帮助识别含义和各种关系。

3.评估模型的性能。

4.向最终用户呈现分析结果。

下面的流程图说明了这一流程。

典型的文本挖掘流程图

第一行:识别/提取待分析的文本/文档 应用统计的/语言的/结构化技术来分析 推断含义/识别内容/应用词类分析法

第二行:提取概念和模式 应用统计的/机器学习/模式匹配技术 将文档分类,根据分类学组织文档

第三行:识别文本含义和大量文本中各种关系 评估模型性能,检查查准率/查全率/准确性/相关性

向最终用户呈现分析结果

机器学习在文本挖掘中的作用

典型地,文本挖掘技术根据因子(例如术语频率和分布)的统计分析建立一组重要的单词和句子。根据重要性,得分最高的单词和句子典型地表明潜在的观点,感情或一般主题。

作为过程的一部分,现代工具典型地构建一个文档术语矩阵(DTM),使用加权方法,如词频-逆文档频率法(TF-IDF)。这些工具提取并将潜在信息,如标准特征,关键词频率,文档和文本列表特征,以表格的形式存储在数据库中。可以查询这些表格进行系数分析和处理。这些步骤是将机器学习技术应用到文本内容的前导。

文本分析学典型地运用机器学习技术,如聚类,分类,关联规则和预测建模来识别潜在内容中的含义和各种关系。然后使用各种方法处理非机构化数据源中包含的潜在文本。非结构化数据源包括自然语言处理(NLP),语法分析,标记化(明显成分的识别,如单词和N个字尾),词干提取(将单词变体缩减为词干),术语归约(使用同义词和相似度量的小组类术语)和词类标记。这些数据源帮助识别事实和关系。

文本分析另一个关键的方面涉及组织和构建潜在的文本内容。典型的技术包括聚类,编目,分类和归类。很多工具使用的典型的分类方法包括朴素贝叶斯,支持向量机和K最近邻分类算法。

下面的表格包含了常用的文本挖掘技术,包括机器学习和每一种技术的考虑因素。

文本挖掘技术

关键的考虑因素

组织和构建内容

聚类 编目 分类 归类

文本处理

自然语言处理语法分析标记化词干提取术语归约词类标记

统计学分析

术语频率关键词频率分布文档术语矩阵词频-逆文档频率法文档索引

机器学习

聚类分类关联规则预测建模

分类方法

朴素贝叶斯支持向量机K最近邻

模型评估

查准率查全率准确性相关性

  • 聚类
  • 编目
  • 分类
  • 归类

文本处理

  • 自然语言处理
  • 语法分析
  • 标记化
  • 词干提取
  • 术语归约
  • 词类标记

统计学分析

  • 术语频率
  • 关键词频率
  • 分布
  • 文档术语矩阵
  • 词频-逆文档频率法
  • 文档索引

机器学习

  • 聚类
  • 分类
  • 关联规则
  • 预测建模

分类方法

  • 朴素贝叶斯
  • 支持向量机
  • K最近邻

模型评估

  • 查准率
  • 查全率
  • 准确性
  • 相关性

一旦使用以上的技术对文本进行了处理,分组和分析,评价结果就变得很重要。评估的目的是确定你是否已经找到了最相关的材料或是否你丢失了一些重要术语。你将会使用查准率和查全率和评估结果。

使用AWS服务和RapidMiner进行情感分析

现在让我们看一下你如何使用AWS服务和RapidMiner进行情感分析,这是文本挖掘一个很普遍的应用案例。在情感分析中,你识别积极和消极的观点,情绪和评价,经常使用机器学习技术分析文本内容。使用AWS和RapidMiner,你不用将非结构化数据迁移到另一个环境中就可以使用情感分析这样的技术对存储在S3中的数据直接进行分析。

如下所示,你可以使用RapidMiner创建文本挖掘流程与S3进行集成。S3上的一个对象可能是任何一种文件,也可能是任何一种格式,如文本文件,招聘,或视频。这使得S3在存储文本挖掘和先进的分析学所需的非结构化数据方面变得非常有用。

亚马逊S3服务与其他的亚马逊大数据服务,如Amazon Redshift,Amazon RDS,AmazonDynamoDB, Amazon Kinesis和Amazon EMR,是集成的。这就产生了在AWS中使用RapidMiner开发文本挖掘模型的有趣场景。例如,你可以使用S3服务来存储从这些亚马逊业务中提取的数据,然后使用RapidMiner对这些数据快速构建一个文本挖掘模型。你可以将模型输出的结果存储到你选择的S3桶和区域中并将这些结果和更广泛的最终用户社区分享。

下面的举例使用加利福尼亚大学尔湾分校主办的SMS Spam collection(垃圾短信收集)数据组。SMS Spam collection是由一组为手机垃圾的研究而收集的标签消息组成的。这个数据组综合了垃圾和非垃圾短信(标记为ham)。这一数据组每行一条短信,使用UTF-8编码,以制表符为分隔,构成一个文本文件。

视频演示

下面的视频样本将会向你展示如何使用RapidMiner和S3进行文本挖掘。注意:视频样本没有声音。

开始前,请:

1.下载并安装RapidMiner软件和可从RapidMiner Marketplace获取的RapidMiner Text Processing Extension。你可以将RapidMiner安装在你的本地电脑上。如果你当前的电脑配置不能提供足够的容量,也可以将RapidMiner安装在亚马逊EC2实例上。

2.使用你的AWS证书在RapidMiner配置S3连接信息。要使用S3服务,你需要有一个AWS账户。

3.将文本挖掘案例研究所需输入数据组上传到S3桶中。

从S3中导入和读取数据到RapidMiner

下面的视频将会向你展示如何使用你上传到S3桶中的数据,S3服务和RapidMiner创建一个文本挖掘应用。记住:你必须导入使用UTF-8编码的文件,确定制表符为分隔符以便以正确的格式来处理文件。

视频:从S3中导入和读取数据到RapidMiner

https://s3.amazonaws.com/awsbigdatablog/1-AmazonS3-RapidMiner-Text-Mining-Video.mp4

使用RapidMiner’s Validation运算符

当对不可见的数据运行模型时,你看到的准确性可能低于预期。这是可能的,因为我们使用的方法可能已经学习了它所看到的数据,但是从未针对不可见的数据对该方法进行测试。为了解决这一问题,你可以使用下面的视频中所示的RapidMiner Validation运算符。

视频:使用RapidMiner’s Validation运算符

http://s3.amazonaws.com/awsbigdatablog/2-AmazonS3-RapidMiner-Text-Mining-Video.mp4

在RapidMiner中应用Store运算符

为了将已经学习到的模型应用到新数据,你必须将模型和单词表存储到RapidMiner仓库。你必须存储单词表是因为当你预测一个新消息是垃圾短信还是非垃圾短信的概率时,你不得不使用原来的过程中使用的相同的属性或单词。因此,你需要相同的单词表和模型,需要以你处理正在学习的数据时使用的方式来处理新数据。下面的视频展示了这是如何做到的。

视频:在RapidMiner中应用Store运算符

https://s3.amazonaws.com/awsbigdatablog/3-AmazonS3-RapidMiner-Text-Mining-Video.mp4

将不可见的数据应用到RapidMiner模型

下面的视频展示了如何应用你使用Retrieve运算符为新的不可见数据构建的模型来预测新消息是非垃圾短信还是垃圾短信。

视频:将不可见的数据应用到RapidMiner模型

https://s3.amazonaws.com/awsbigdatablog/4-AmazonS3-RapidMiner-Text-Mining-Video.mp4

使用Write S3运算符存储结果

下面的视频展示了如何在RapidMiner中使用Write S3运算符将输出结果存储到S3桶中,该桶已经在前面的概述中被设置为RapidMiner的一个连接。你可以从特定的S3桶中将输出结果下载到本地,使用文本编辑器查看这些结果。

视频:使用Write S3运算符存储结果

https://s3.amazonaws.com/awsbigdatablog/5-AmazonS3-RapidMiner-Text-Mining-Video.mp4


【预告】 2015中国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:1192936057。欢迎关注。

请点击这里(http://ccai2015.csdn.net/)报名。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
「首席架构师推荐」文本挖掘软件列表
文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是指从文本中获取高质量信息的过程。高质量的信息通常是通过设计模式和趋势通过统计模式学习等手段获得的。
架构师研究会
2019/10/09
1.4K0
「首席架构师推荐」文本挖掘软件列表
文本挖掘的介绍
文本挖掘是指从大量文本的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C→ p。
全栈程序员站长
2022/09/07
1.2K0
文本挖掘的介绍
文本挖掘 – Text mining
文本摘要:许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。
easyAI
2019/12/18
2K0
文本挖掘 – Text mining
文本挖掘| 到底什么是文本挖掘?
你是否想过为什么图书馆的管理员能够将几千本几万本的书籍进行快速的管理?你是否好奇习近平总书记的政府工作报告,随着时间的推移,他传达的信息有什么变化?如何从海量的科研文献中提取导致某疾病的关键蛋白/基因?如何针对用户的网络行为,分析情感特征,根据用户的检索要求或者购买需求,提供相关的信息资料或意向产品?如何根据预先设定的主题类别,对大量的文档进行分类,方便阅读和查找?还在苦恼于毕业典礼照集的几千位校友照中寻找自己的学位授予照片?
黑妹的小屋
2020/08/05
2.2K0
文本挖掘| 到底什么是文本挖掘?
用Rapidminer做文本挖掘的应用:情感分析
情感分析的基本任务是将文档,句子或实体特征中表达的观点分类为肯定或否定。本教程介绍了Rapidminer中情感分析的用法。此处提供的示例给出了电影列表及其评论,例如“ 正面” 或“ 负面”。该程序实现了Precision and Recall方法。 精度 是(随机选择的)检索文档相关的概率。 召回 是在搜索中检索到(随机选择的)相关文档的概率。高 召回率 意味着算法返回了大多数相关结果。精度高 表示算法返回的相关结果多于不相关的结果。
拓端
2020/10/21
1.6K0
不可不知 | 有关文本挖掘的14个概念
版权声明 作者:杜尔森·德伦(Dursun Delen) 来源:《大数据掘金 挖掘商业世界中的数据价值》,中国人民大学出版社出版 本文由数据之王(ID:shujuzhiwang)推荐,转载请注明出处 数据之王(ID:shujuzhiwang)由大中华大数据协会运营,如有邀约合作,首页回复合作需求,我们将及时回复 我们所处的信息时代以急速增长的数据信息收集、储存和转换成电子格式为特征。大量的商业数据以杂乱无章的文本形式储存。 据美林公司(Merrill Lynch)和高德纳公司(Gartner)联合进行的一项
小莹莹
2018/04/23
9460
不可不知 | 有关文本挖掘的14个概念
学界 | 从文本挖掘综述分类、聚类和信息提取等算法
选自arXiv 机器之心编译 参与:机器之心编辑部 文本挖掘一直是十分重要的信息处理领域,因为不论是推荐系统、搜索系统还是其它广泛性应用,我们都需要借助文本挖掘的力量。本文先简述文本挖掘包括 NLP、
机器之心
2018/05/09
2.6K0
学界 | 从文本挖掘综述分类、聚类和信息提取等算法
什么是文本挖掘 ?「建议收藏」
什么是文本挖掘   文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。   文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。   文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。
全栈程序员站长
2022/07/05
1.9K0
什么是文本挖掘 ?「建议收藏」
【译】从文本挖掘和机器学习中洞悉数据
版权申明 作者:Murat Yazici 原文链接:http://www.ibmbigdatahub.com/b ... rning 翻译:星星 PPV课原创翻译文章,如需转载请微信留言获得授权,不得未经授权转载! 文本挖掘分析的是包含在自然语言文本中的数据。它可以帮助企业从文本型数据中获得具有潜在价值的商业洞察力,比如Word文档、邮件或Facebook、Twitter、LinkedIn等社交媒体上的帖子。对于在信息检索和自然语言处理等方面应用机器学习技术这
小莹莹
2018/04/23
7340
【译】从文本挖掘和机器学习中洞悉数据
【数据挖掘】用文本挖掘和机器学习洞悉数据
文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力,比如Word文档,邮件和社交媒体流中发布的帖子,如Facebook,Twitter,和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言,文本挖掘已经成为一个重要的研究领域。在某种意义上,它被定义为在无处不在的文本中发现知识的方式,而这些文本可以在网络上轻易获取。 文本挖掘是一个包含几个步骤的过程。 第一步:适合应用的文档一般是确定的大量文本数据。文档聚类方法经常用语解决“大量”这
陆勤_数据人网
2018/02/27
7820
【技术】从文本挖掘和机器学习中洞悉数据
文本挖掘分析的是包含在自然语言文本中的数据。它可以帮助企业从文本型数据中获得具有潜在价值的商业洞察力,比如Word文档、邮件或Facebook、Twitter、LinkedIn等社交媒体上的帖子。对于
小莹莹
2018/04/24
8690
【技术】从文本挖掘和机器学习中洞悉数据
什么是文本挖掘?大数据该挖掘什么?
什么是文本挖掘 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。 传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,
机器学习AI算法工程
2018/03/09
1.7K0
利用Python进行文本挖掘和自然语言处理从基础到实践
随着数据的爆炸式增长,文本挖掘和自然语言处理(NLP)变得愈发重要。Python作为一种灵活且功能强大的编程语言,在这个领域中扮演着至关重要的角色。本文将介绍如何使用Python进行文本挖掘和自然语言处理,包括基本概念、常用库以及实际代码示例。
一键难忘
2024/08/05
5600
短语挖掘与流行度、一致性及信息度评估:基于文本挖掘与词频统计|附数据代码
在信息爆炸的时代,文本数据呈现出爆炸式的增长,从新闻报道、社交媒体到学术论文,无处不在的文本信息构成了我们获取知识和理解世界的重要来源。然而,如何从海量的文本数据中提取有价值的信息,尤其是那些能够反映主题、趋势或情感倾向的短语,成为了文本挖掘领域的一个重要挑战(点击文末“阅读原文”获取完整代码数据)。
拓端
2024/05/17
1690
短语挖掘与流行度、一致性及信息度评估:基于文本挖掘与词频统计|附数据代码
【机器学习】机器学习在电商文本挖掘中的应用浅析
电商平台中有海量的非结构化文本数据,如商品描述、用户评论、用户搜索词、用户咨询等。这些文本数据不仅反映了产品特性,也蕴含了用户的需求以及使用反馈。通过深度挖掘,可以精细化定位产品与服务的不足。下面描述了电商平台下机器学习在文本挖掘的应用例子。 1 用户评论分类 场景 用户评论能反映出用户对商品、服务的关注点和不满意点。评论从情感分析上可以分为正面与负面。细粒度上也可以将负面评论按照业务环节进行分类,便于定位哪个环节需要不断优化。 机器学习模型 主题聚类、词向量计算。传统的机器学习分类模型在评论分类上的精
陆勤_数据人网
2018/02/27
1.9K0
【机器学习】机器学习在电商文本挖掘中的应用浅析
用R语言进行文本挖掘和主题建模
本文探讨了如何使用R语言进行文本挖掘和主题建模,包括预处理、文本向量表示、主题建模和结果可视化。作者还提供了两个示例数据集和代码,让读者可以更好地理解这些概念。
大数据弄潮儿
2017/12/20
3K1
【视频】Rapidminer关联规则和文本挖掘模型对评论数据进行分析
关联规则是通过分析频繁使用的“如果/然后”模式的数据并使用条件 支持 和 置信度 来确定最重要的关系来创建的。支持表示项目在数据库中出现的频率。置信度表示发现if / then语句为真的次数。使用FP-Growth运算符之类的运算符来挖掘频繁的if / then模式。“创建关联规则”运算符采用这些频繁项集并生成关联规则。
拓端
2020/10/21
9590
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集|附代码数据
在这篇文章中,我们讨论了基于gensim 包来可视化主题模型 (LDA) 的输出和结果的技术
拓端
2023/06/12
5390
52 个有用的机器学习与预测API
随着基于人工智能与机器学习的应用如雨后春笋般不断涌现,我们也看到有很多提供类似功能的 API 悄悄登上了舞台。 API 是用于构建软件应用的程序、协议以及工具的组合;本文是对2015 中这个列表的修正与完善,移除了部分被废弃的 API ;我们也添加了最近由 IBM、Google、Microsoft 这些大厂发布的 API 。所有的 API 可以根据应用场景进行分组: 人脸与图片识别。 文本分析,自然语言处理以及情感分析。 语言翻译。 预测以及其他的机器学习算法。 在具体的每个分组内,我们根据首字母顺序排序;
机器学习AI算法工程
2018/03/15
1.5K0
数道云科技深度解析:国内外大数据挖掘工具有哪些?有什么特点?
数据挖掘工具是使用大数据挖掘技术从互联网的海量数据中发现、采集并挖掘出有有价值数据一种软件。利用特定的技术,例如:Hadoop、Spark……实现对互联网非机构化的大数据进行挖掘并获得正确、有价值数据的一种快速、便捷的方法。
数道云大数据
2019/06/19
9910
推荐阅读
相关推荐
「首席架构师推荐」文本挖掘软件列表
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文