前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每周学点大数据 | No.71 单词出现行计数

每周学点大数据 | No.71 单词出现行计数

作者头像
灯塔大数据
发布2018-04-03 16:29:36
6910
发布2018-04-03 16:29:36
举报
文章被收录于专栏:灯塔大数据

No.71

单词出现行计数

Mr. 王 :我们可以试试用 Python 终端来实现一个最简单的功能——单词出现行计数。

首先创建一个文件,在里面写一段话。

小可 :我就在 Spark 文件夹里写一个名为 HelloWorld 的文件吧!

Mr. 王 :好,我们现在就让 Spark 来执行一个在文本处理中非常简单却非常常用的功能。

首先求出整个文本文件有多少行,然后求出有某个关键词出现的行数,为进行其他处理打下基础。

首先加载 HelloWorld 文件,使用命令 :

程序会有一些输出,显示程序的运行情况。

然后通过查看文件的第一行,看看是不是正确地加载了这个文件。输入下面的命令 :

小可 :嗯,程序输出结果的最后一行显示了 Hello World !。对照我之前输入的文件来看,这的确是文件的第一行。

Mr. 王 :现在可以尝试用它来统计行数了。

小可 :最后显示出了正确的结果!在一些运行情况信息后面,显示了一个 4,这个 4 就是行数的统计结果吧?也就是说,HelloWorld 文件有 4 行,这和我之前输入的文件是相符的。

Mr. 王:下面可以执行最后一步了,使用 filter 和 count 函数来实现最后的功能。使用命令:

程序的执行结果如下 :

小可 :最后这个 2 表示的就是出现过 Spark 的行数有两行吧?

小可对照了一下前面写过的 HelloWorld 文件。

小可 :没错,结果是对的!的确有两行出现过 Spark 这个词!

Mr. 王 :好了,我们想要实现的一个简单功能完成了。执行到这里,可以在单机上运行的Spark 平台就已经搭建好了。不难比较出,我们使用 Spark 的单机模式基本上没有进行过配置,而且实现一些基本的文本处理功能是几乎不需要任何程序设计的,只要简单地使用一些命令或者只有一行的程序,就可以完成我们在 Hadoop 中需要几十行代码才能实现的功能,体现了它的使用是非常的简便容易的。

小可 :是啊,实现这个功能只用了 3 ~ 5 行代码,的确非常的方便啊。

Mr. 王 :我们休息一下,退出 Spark-Shell。

小可疑惑不解地说 :咦?“Ctrl+C”快捷键为什么不好使了?

Mr. 王 :哦,Python 的 PySparkShell 的快捷键不太一样,要使用“Ctrl+D”快捷键关闭它。关闭之后,Spark 还会停止一些内存和块的管理程序,程序会输出一些信息 :

如果重新出现了 Shell 提示符,则说明我们已经成功地退出了 Spark。

下期精彩预告

经过学习,我们研究了单词出现行计数涉及到的一些具体问题。在下一期中,我们将进一步了解在 Spark 上实现 WordCount的相关内容。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

文章作者:王宏志

文章编辑:天天

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-01-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档