java大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

java大数据

专栏成员

627

文章

461329

阅读量

29

订阅数

DBOutputFormat把MapReduce结果输出到mysql中

现在有一个需求：就是如何使用DBOutputFormat把MapReduce产生的结果输出到mysql中。

马克java社区

2021-07-05

1.2K0

MapReduce当中自定义输出：多文件输出MultipleOutputs

马克-to-win @ 马克java社区：对于刚才的单独订单topN的问题，如果需要把单独的订单id的记录放在自己的一个文件中，并以订单id命名。怎么办？multipleOutputs可以帮我们解决这个问题。注意：和我们本章开始讲的多文件输出不一样的是，这里的多文件输出还可以跟程序的业务逻辑绑定在一起，比如文件的名字和订单有关系。

马克java社区

2021-07-05

5560

MapReduce当中的reduce当中的cleanup的用法

马克-to-win @ 马克java社区：上面的topN是解决每个组里的topN，比如每个订单中的最小的。但如果需要横向的比较所有的key(初学者忽略：cleanup方法慎用，如果所有的key的数据巨大量怎么办？Map map = new HashMap();内存都不够了，所以考虑多步mapreduce)，选出topN，得用cleanup。

马克java社区

2021-07-05

4900

通过剖析源码单步调试详解MapReduce分组group遍历

马克-to-win @ 马克java社区：mapreduce的group知识点是最难理解的，本小节将通过仔细剖析源码，单步调试，来详解之。

马克java社区

2021-07-05

2230

MapReduce当中全局变量的用法

马克-to-win @ 马克java社区：如想传递变量，程序可以在main函数中，利用Congfiguraion类的set函数将一些简单的数据结构放到到Congfiguraion中，map或reduce task任务启动的过程中（比如setup函数）通过Configuration类的get函数读取即可。

马克java社区

2021-07-05

5220

MapReduce当中topN问题的解决方法

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。topN问题就是输出每组中最大的一个或几个。为什么说是一个或几个呢？因为输出一个或者输出几个的算法是一样的。我们下面以输出一个为例子，做一个示范。

马克java社区

2021-07-05

3160

MapReduce当中排序sort的方法

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。注意：想自己实现Sort得不偿失，但如想借助Hadoop MapReduce技术框架排序，key必须实现WritableComparable接口。具体做法见下。需求是先按id比，再按amount比。

马克java社区

2021-07-05

3580

MapReduce当中自定义对象的用法

马克-to-win @ 马克java社区：到目前为止，我们在hadoop网络上传的变量类型都是预定义的类型比如Text或IntWritable等，但有时需要我们，自己建一个类，把预定义的简单数据类型封装在里头而且还能像预定义的类型一样在hadoop网络中传输，这样更便于管理和运作。这样就需要向下面这样implements Writable。实现write和readFields方法。思路：如果想求平均值的话，按照前一章讲的hello world方法，同一个键的所有值，同时都进同一个reduce方法，这样的话，我们可以以字符串的形式，把o1,p2,250.0和o1,p1,200.0两个字符串同时传到同一个reduce之后，经过处理，求和求平均值就可以了，但是这种方法毕竟显得有点笨，(但基本能解决所有问题)，所以我们可以用这一节所学的自定义对象的方法传值。显得高大上。讲述本节时，可以先讲一遍，明白了后，再讲一遍，说明为什么这么写程序。

马克java社区

2021-07-05

3220

MapReduce当中Combiner的用法

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。在上一章的helloworld例子中，每一个map都可能会产生大量的本地输出，这些输出会通过网络到达reducer端，这样会非常浪费带宽。解决这个问题可以通过Combiner。Combiner的作用就是对map端的输出先做一次合并，是MapReduce的一种优化手段之一。

马克java社区

2021-07-05

2010

MapReduce当中Partitioner的用法

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。如果现在我们的需求变成，输出放在两个文件当中，按照关键字的首个字母的26个字母来分，头13个放在一个文件当中，以此类推，这时我们就要用到partition的技术。

马克java社区

2021-07-05

3360

MapReduce的输入文件是两个

马克-to-win @ 马克java社区：这一小节，我们将继续第一章大数据入门的HelloWorld例子做进一步的研究。这里，我们研究如何输入文件是两个文件。

马克java社区

2021-07-05

3360

Hadoop安装过程当中winutils.exe和hadoop.dll怎么处理？

马克-to-win @ 马克java社区：再搜索：。。。。。。。。我两台机器分别是win7的32位和64位两种，我下的在32位和64位机器都行）。拷贝进入上面的bin目录。hadoop.dll同时放到c:/windows/System32下一份。

马克java社区

2021-06-27

1.1K0

Hadoop的安装

1）马克-to-win @ 马克java社区：首先到apache hadoop网站下载hadoop-2.7.4.tar.gz，随便解压到一个目录。

马克java社区

2021-06-27

3200

MapReduce项目如何输出jar包？

右键单击工程，点开“Export…”，在弹出的对话框中选择“java/JAR file”，

马克java社区

2021-06-24

3460

MapReduce的shuffle过程详解

马克-to-win @ 马克java社区：shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像洗牌？马克-to-win @ 马克java社区：shuffle在MapReduce中是指map输出后到reduce接收前，按下面的官方shuffle图：具体可以分为map端和reduce端两个部分。在最开始，假设我们就提交一个大文件，MapReduce会对要处理的大文件数据进行分片（split）操作放到多台机器的集群里，（想象一个搬走大山的大活给一个师的人马，是不是要把人，部署一圈，展开，一人干一块儿，现在是一样的道理。现在你要摆弄一个1.5T的文件，需要先把它切开，分配到不同机器）为每一个分片分配一个MapTask任务，接下来会对每一个分片中的每一行数据进行处理，得到键值对（key,value），其中key为偏移量，value为一行的内容。准备给咱们的自己的map方法。执行完咱自己的map方法，便进入shuffle阶段。马克-to-win @ 马克java社区：为提高效率，mapreduce会把我们的写出的结果先存储到map节点的“环形内存缓冲区”（不深入探讨），当写入的数据量达到预先设置的阙值后（默认80%）便会启动溢出（spill）线程将缓冲区中的那部分数据溢出写（spill）到磁盘的临时文件中，可能会产生很多，并在写入前根据key进行排序（sort）和合并（combine，本章不讨论）。

马克java社区

2021-06-24

3370

hadoop在eclipse当中如何添加源码？

/*org.apache.hadoop.mapreduce.Mapper.Context,java.lang.InterruptedException,想看map的源代码，按control，点击，出现Attach Source Code,点击External Location/External File,找到源代码，就在Source目录下，,D:\hadoop-2.7.4\src

马克java社区

2021-06-24

4680

hadoop WordCount例子详解。

马克-to-win @ 马克java社区：下载hadoop-2.7.4-src.tar.gz，拷贝hadoop-2.7.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples下的WordCount.java文件中的内容到新创建的WordCount空类中。此处附上：

马克java社区

2021-06-24

5750

Hadoop的eclipse的插件是怎么安装的？

1）马克-to-win @ 马克java社区：网上下载hadoop-eclipse-plugin-2.7.4.jar，将该jar包拷贝到Eclipse安装目录下的dropins文件夹下，我的目录是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins，然后重启Eclipse就可以看到MapReduce选项了。

马克java社区

2021-06-24

6840

hdfs常用命令

i)马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。 hdfs dfs -mkdir /user 会在hadoop的根目录下创建一个目录。可以通过hdfs dfs -ls / 来查。

马克java社区

2021-06-24

3540

hadoop基本文件配置

马克-to-win @ 马克java社区：hadoop配置文件位于：/etc/hadoop下（etc即：“etcetera”(附加物)）

马克java社区

2021-06-24

2800

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态