首页
学习
活动
专区
工具
TVP
发布

岑玉海

专栏作者
105
文章
134400
阅读量
56
订阅数
Kettle 添加对应hadoop版本的支持
  在hdp的官网上有一个ETL工具叫做Talend Open Studio,然后我就下了,并且在群里询问了一下,突然间冒出来一群ETL高手,经高人指点认识了一款叫做Kettle的软件,经过这两天的试用,从直观感受上,Kettle更容易使用和上手,资料更多,界面更友好。。。 优点很多,这里不一一列举了,关键是它对hadoop的支持我觉得是很全面的。   但是这里面有一个问题出现了,它不支持我现在用的版本,我用的是Hortonworks的HDP1.3,好吧,经过不懈的努力,终于被我搜索到了,哈哈,原来它可以支
岑玉海
2018-03-01
2.1K0
sqoop 从sqlserver2008 导入数据到hadoop
  今天终于开始上手导入数据到hadoop了,哈哈,过程蛮崎岖的,和官方文档的还不太一样。   OK,let's go!试验对象是我第一个名为ST_Statistics的一张表,我要把我表里的数据导入到hdfs、hive以及hbase当中,然后试验才算完成。   1.导入数据到hdfs   sqoop import --connect 'jdbc:sqlserver://192.168.1.105:1433;username=sa;password=cenyuhai;database=SAMS' \
岑玉海
2018-03-01
1.6K0
WF追忆
  前一阵子学习了一下工作流,现在写个总结记录一下这个过程。要弄工作流,首先就要有个界面来画图,做web的,没办法,只能选择javascript和silverlight,找来找去,最后用了Shareidea的和Workflow11的界面,在此对他们表示感谢,界面是在Shareidea上面进行的修改,把Workflow11的很多东西也揉进来了,最后合成的一个杂交体。但是最后因为要玩hadoop,要清理磁盘空间,把工程给误删了,直到现在才发现。。我3个月的业余时间完成的代码全部被干掉了,已经无法挽回了,只能做一
岑玉海
2018-03-01
1.1K0
通过ambari安装hadoop集群(一)
    之前一直用的开源社区的版本,最近突然想到找一个好的商业版本用着,然后一直使用,然后就定上了hdp和cdh,都装上去了,但是cdh使用难度太大了,和开源版本的差距比较大,api不会使用,需要学它的cdk。hdp和开源版差不多,也是经过了优化了的,也是开源的,有一个管理界面,比社区版要好,这个安装过程废了很大的劲儿才搞成功的,发出来跟大家分享一下。     hdp的安装折腾了好久,它的下载地址网址不像CDH那么难找,不过它的设置相对CDH简单很多,一键式安装,而且都是免费的软件。 1.首先要下载它们的安
岑玉海
2018-03-01
8260
oozie java api提交作业
今晚试验用java的api来提交代码,由于代码是在我机器上写的,然后提交到我的虚拟机集群当中去,所以中间产生了一个错误。。要想在任意一台机器上向oozie提交作业的话,需要对hadoop的core-site.xml文件进行设置,复制到所有机器上,然后重启hadoop集群。 设置如下: <property> <name>hadoop.proxyuser.cenyuhai.hosts</name> <value>*</value> </property> <property>
岑玉海
2018-03-01
1.4K0
使用Ant编译Hadoop工程报错
  在win7用Ant编译hadoop工程的时候,遇到了一个报错,如下:   org.eclipse.core.runtime.CoreException: D:\workspace\hadoop-1.1.2\build.xml:83: Execute failed: java.io.IOException: Cannot run program "sed"   打开build.xml文件,找到sed,然后把注释掉即可,这段内容是为了替换苹果系统的空格的,但是。。Windows出错啦,也难怪,因为hadoo
岑玉海
2018-02-28
1.1K0
批量设置ssh无密码登陆脚本
最近要给集群设置ssh无密码登陆,如果需要手动设置这个无密码登陆,所以在网上找了几个脚本,亲测下面这个好使,并且设置比较简单。 需要用root账户执行,我也是要给root账户设置无密码登陆。 首先我们要创建密码,执行下面这句命令: ssh-keygen -t rsa 脚本如下:我们仅仅需要修改的就是node=()里面的主机名就可以了,当前前提是你必须在/etc/hosts 配置了。 #!/bin/bash node=(hadoop.Master hadoop.SlaveT1 hadoop.SlaveT2)
岑玉海
2018-02-28
1.6K0
hdfs平衡分布
这篇文章是从网上看到的,觉得很好就收藏了,但是最终不知道出处了。 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的。 在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的状态,使用这个程序的命令如下: sh $HAD
岑玉海
2018-02-28
1.6K0
nfs挂载hdfs,实现云存储
  本来不知道nfs是啥,因为群里的Harry童鞋有个问题,如何把本地目录挂载到hdfs上,搞什么云存储,说那么巧就是那么巧,HDP支持nfs,然后我就照着文档的说明去做,最后弄出来了。   1.修改机器上的hdfs-default.xml    vi /share/lib/hadoop/conf/hdfs-default.xml   如果没有hdfs-default就找hdfs-site.xml 设置为如下内容,hdp的默认值是0 <property>   <name>dfs.access.time.pr
岑玉海
2018-02-28
3.2K0
oozie 安装过程详解
1.从apache的官网下载oozie3.3.2 2.编译oozie,以下命令用root来执行吧,它不做任何的测试的,因为一测试就会出错的 官网估计也知道,所以顺便也提供了一个跳过参数的命令。。。 bin/mkdistro.sh -DskipTests 编译完成之后的实际可运行程序位于oozie/distro/target/oozie-3.3.2-distro/ 目录下 我好不容易找到了这个目录,我把它已到了/usr目录下面 3.在oozie的
岑玉海
2018-02-28
1.1K0
sqoop 兼容性问题
--direct 只支持mysql 5.0 + 和postgresql 8.3+(只是import) jdbc的jar包需要放在$SQOOP_HOME/lib目录下 mysql zeroDateTimeBehavior mysql允许DATE列使用'0000-00-00\' 如果不处理sqoop默认给转换为null 当然你也可以自己指定为 round,自动转换为('0001-01-01\') $ sqoop import --table foo \ --connect jdbc:mysql://d
岑玉海
2018-02-28
2.1K0
oozie 运行demo
昨晚装好了oozie,能启动了,并且配置了mysql作为数据库,好了,今天要执行oozie自带的demo了,好家伙,一执行就报错!报错很多,就不一一列举了,就说我最后解决的方法吧。 oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties –run 这句话需要在oozie的目录里面执行,然后在网上查了很多资料,最后搞定了,需要修改三个配置文件。 在说修改配置文件之前,还漏
岑玉海
2018-02-28
1.6K0
Hadoop源码系列(一)FairScheduler申请和分配container的过程
1、如何申请资源 1.1 如何启动AM并申请资源 1.1.1 如何启动AM val yarnClient = YarnClient.createYarnClient setupCredentials() yarnClient.init(yarnConf) yarnClient.start() // Get a new application from our RM val newApp = yarnClient.createApplication() val newAppResponse = newApp.
岑玉海
2018-02-28
1.2K0
hadoop 参数
看《Hadoop:权威指南》的时候收集了书上写的一些需要优化的参数,记录了一下子,给大家分享一下吧。 1.mapred.task.timeout 任务超时时间,默认是10分钟 2.mapred.map.max.attempts  mapred.reduce.max.attempts 默认任务失败重复次数为4 3.mapred.max.map.failures.percent mapred.reduce.map.failures.percent 不触发错误的失败的最
岑玉海
2018-02-28
9170
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档