首页
学习
活动
专区
工具
TVP
发布

无题~

专栏作者
218
文章
267481
阅读量
22
订阅数
Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo
原因: 因为在之前的项目中,在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩,这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-submit任务时,需要访问HDFS上的文件,而spark自身没有lzo的jar包所以无法找到。
孙晨c
2021-06-11
6850
Linux的环境变量配置在/etc/profile或/etc/profile.d/*.sh文件中的区别是什么?
Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,~/.bashrc等,下面说明上述几个文件之间的关系和区别。
孙晨c
2021-01-29
2.4K0
/dev/null--Linux系统黑洞,解决控制台的刷屏问题
那么就可以编写一个脚本,把输出的内容全部扔进“黑洞”。此脚本模拟在hadoop102和hadoop103两台主机上循环执行jar文件:
孙晨c
2021-01-29
9450
Hive初体验
Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序
孙晨c
2020-10-10
3590
zookeeper集群的搭建
在hadoop101、hadoop102和hadoop103,这三个节点上部署Zookeeper。
孙晨c
2020-09-28
3540
MapperReduce常见错误及解决方案
1)导包容易出错。尤其Text和CombineTextInputFormat。 2)Mapper中第一个输入的参数必须是LongWritable或者NullWritable,不可以是IntWritable. 报的错误是类型转换异常。 3)java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4),说明Partition和ReduceTask个数没对上,调整ReduceTask个数。 4)如果分区数不是1,但是reducetask为1,是否执行分区过程。答案是:不执行分区过程。因为在MapTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。 5)在Windows环境编译的jar包导入到Linux环境中运行, hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/ /user/atguigu/output 报如下错误: Exception in thread "main" java.lang.UnsupportedClassVersionError: com/atguigu/mapreduce/wordcount/WordCountDriver : Unsupported major.minor version 52.0 原因是Windows环境用的jdk1.7,Linux环境用的jdk1.8。 解决方案:统一jdk版本。 6)缓存pd.txt小文件案例中,报找不到pd.txt文件 原因:大部分为路径书写错误。还有就是要检查pd.txt.txt的问题。还有个别电脑写相对路径找不到pd.txt,可以修改为绝对路径。 7)报类型转换异常。 通常都是在驱动函数中设置Map输出和最终输出时编写错误。 Map输出的key如果没有排序,也会报类型转换异常。 8)集群中运行wc.jar时出现了无法获得输入文件。 原因:WordCount案例的输入文件不能放用HDFS集群的根目录。 9)出现了如下相关异常
孙晨c
2020-09-18
5770
MapReduce之自定义InputFormat
将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value(bytes) 对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。
孙晨c
2020-07-21
6300
使用MapReduce运行WordCount案例
注意:准备的数据的格式必须是文本,每个单词之间使用制表符分割。编码必须是utf-8无bom
孙晨c
2020-07-16
4720
MapReduce的运行流程概述
①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象
孙晨c
2020-07-14
6830
hadoop集群的启动与停止
这些名称是我的三台机器的主机名,各位请改成自己的主机名! 注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
孙晨c
2020-07-10
1.5K0
大数据面试题
①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件?
孙晨c
2020-07-10
5600
Hadoop生态圈
HDFS: 负责大数据的存储 Common: HDFS和MR共有的常用的工具包模块! MapReduce: 负责计算,负责计算资源的申请的调度!
孙晨c
2020-07-06
3930
Hadoop运行模式及相关文件说明
hadoop框架在运行需要产生很多数据(日志),数据的保存目录,必须让当前启动hadoop进程的用户拥有写权限!
孙晨c
2020-07-06
3890
HDFS和MR的配置和使用
①在$HADOOP_HOME/etc/hadoop/core-site.xml文件
孙晨c
2020-07-06
4280
hadoop2.x全分布式集群搭建(一主二从)
然后生成了id_rsa与id_rsa.pub,分别是私有与公有秘钥,我们要把公有秘钥复制到一个authorized_keys文件内,这个文件的作用就是完成无密码访问。 然后执行:
孙晨c
2020-05-26
4580
初识Hadoop
高速性(velocity):大数据要求处理速度快,比如淘宝双十一需要实时显示交易数据
孙晨c
2019-09-29
5210
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档