前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hadoop(4)——用python代码结合hadoop完成一个小项目

hadoop(4)——用python代码结合hadoop完成一个小项目

作者头像
gzq大数据
发布2020-11-11 16:59:08
6170
发布2020-11-11 16:59:08
举报
文章被收录于专栏:大数据那些事

我们都知道hadoop是在java环境下完成的,但是通过hadoop-streaming这个java小程序,我们可以把python代码放入hadoop中,然后通过stdin和stdout来进行数据的传递。 (1)开启yarn 通过jps命令查看

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(2)查看mapper.py和reducer.py

在这里插入图片描述
在这里插入图片描述
代码语言:javascript
复制
import sys
# input comes from STDIN (standard input)
for line in sys.stdin:
    line = line.strip()
    words = line.split()
    for word in words:
        print '%s\t%s' % (word, 1)
在这里插入图片描述
在这里插入图片描述
代码语言:javascript
复制
from operator import itemgetter
import sys

current_word = None
current_count = 0
word = None

for line in sys.stdin:
    line = line.strip()
    word, count = line.split('\t', 1)
    try:
        count = int(count)
    except ValueError:
        continue
    if current_word == word:
        current_count += count
    else:
        if current_word:
            print '%s\t%s' % (current_word, current_count)
        current_count = count
        current_word = word

if current_word == word:
    print '%s\t%s' % (current_word, current_count)

(3)测试命令 <1> 先看hadoop.txt

在这里插入图片描述
在这里插入图片描述

<2>

在这里插入图片描述
在这里插入图片描述

可以看见mapper把每一个字符都分割了开来 <3>

在这里插入图片描述
在这里插入图片描述

可见sort函数将字母进行排序,对应hadoop里的shuffle过程 <4>

在这里插入图片描述
在这里插入图片描述

这时可以看见模拟出了最后输出的结果,将一样的词合并作为输出 (4)用hadoop来实现 此时要写好脚本,如图:

在这里插入图片描述
在这里插入图片描述

(5)实行脚本

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

任务实行结束 (6)查看输出结果

在这里插入图片描述
在这里插入图片描述

(7)可视化查看

在这里插入图片描述
在这里插入图片描述

如图,此运算例已经实行成功

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/10/07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CloudBase
云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档