岑玉海-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

岑玉海

专栏成员

105

文章

138859

阅读量

56

订阅数

Distribute Cached 使用

　　在Kettle中说到Pentaho的MapReduce要用到它，就查了一下关于它的资料，以下是从官方查到的内容，记录一下。　　DistributedCache: 一些比较小的需要共享的文件或者jar包，我们先存到hdfs上，然后在MapReduce线程当中进行共享，直接用了。　　 // Setting up the cache for the application 1. Copy the requisite files to the FileSystem:

2018-03-01

7220

hbase 学习（十二）非mapreduce生成Hfile，然后导入hbase当中

hbase mapreduce zookeeper

　　最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile的方式，实现了之后，发现单线程入库速度才达到1w4左右，和之前的多线程的全速差不多了，百思不得其解之时，调整

2018-03-01

1.3K0

MapReduce 学习(一)

首先我们先来欣赏一下MapReduce的执行过程吧，如下图，自己看，不解释了。 Map 和 Reduce 的处理都是基于Key/Value来进行的，在Map中对文件的每一行进行处理，有两个输入

2018-02-28

5580

hadoop的调试

　　折腾hadoop的调试很久了，一直都没折腾对，查过很多资料，但是都没试出来，最终在不断地尝试当中调试出来了，所以想把这个过程记录下来，和大家分享一下。调试分为两部分，MapReduce的调试和源码的调试。 MapReduce的调试很简单，首先要部署好hadoop，这个我就不说了，自己去百度。部署好之后，下载Hadoop对应的eclipse插件，有了这个插件之后，变得异常简单。　　这是我在网上下的hadoop1.1.2的eclipse插件的地址：http://download.c

2018-02-28

8770

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态