无题~-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

无题~

专栏成员

218

文章

279742

阅读量

22

订阅数

Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo

spark hadoop xml 文件存储 jar

原因：因为在之前的项目中，在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩，这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-submit任务时，需要访问HDFS上的文件，而spark自身没有lzo的jar包所以无法找到。

2021-06-11

7260

Linux的环境变量配置在/etc/profile或/etc/profile.d/*.sh文件中的区别是什么?

shell bash bash 指令 hadoop

Linux的环境变量可在多个文件中配置，如/etc/profile，/etc/profile.d/*.sh，~/.bashrc等，下面说明上述几个文件之间的关系和区别。

2021-01-29

2.4K0

/dev/null--Linux系统黑洞，解决控制台的刷屏问题

那么就可以编写一个脚本，把输出的内容全部扔进“黑洞”。此脚本模拟在hadoop102和hadoop103两台主机上循环执行jar文件：

2021-01-29

9750

hive 数据库存储 hadoop sql

Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序

2020-10-10

3780

zookeeper集群的搭建

hadoop 编程算法 zookeeper

在hadoop101、hadoop102和hadoop103，这三个节点上部署Zookeeper。

2020-09-28

3760

MapperReduce常见错误及解决方案

windows shell java hadoop mapreduce

1）导包容易出错。尤其Text和CombineTextInputFormat。 2）Mapper中第一个输入的参数必须是LongWritable或者NullWritable，不可以是IntWritable. 报的错误是类型转换异常。 3）java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4)，说明Partition和ReduceTask个数没对上，调整ReduceTask个数。 4）如果分区数不是1，但是reducetask为1，是否执行分区过程。答案是：不执行分区过程。因为在MapTask的源码中，执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。 5）在Windows环境编译的jar包导入到Linux环境中运行， hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/ /user/atguigu/output 报如下错误： Exception in thread "main" java.lang.UnsupportedClassVersionError: com/atguigu/mapreduce/wordcount/WordCountDriver : Unsupported major.minor version 52.0 原因是Windows环境用的jdk1.7，Linux环境用的jdk1.8。解决方案：统一jdk版本。 6）缓存pd.txt小文件案例中，报找不到pd.txt文件原因：大部分为路径书写错误。还有就是要检查pd.txt.txt的问题。还有个别电脑写相对路径找不到pd.txt，可以修改为绝对路径。 7）报类型转换异常。通常都是在驱动函数中设置Map输出和最终输出时编写错误。 Map输出的key如果没有排序，也会报类型转换异常。 8）集群中运行wc.jar时出现了无法获得输入文件。原因：WordCount案例的输入文件不能放用HDFS集群的根目录。 9）出现了如下相关异常

2020-09-18

6160

MapReduce之自定义InputFormat

java 面向对象编程 hadoop 存储

将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value(bytes) 对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。

2020-07-21

6730

使用MapReduce运行WordCount案例

文件存储 mapreduce hadoop java jar

注意：准备的数据的格式必须是文本，每个单词之间使用制表符分割。编码必须是utf-8无bom

2020-07-16

4980

MapReduce的运行流程概述

spark hadoop hive javascript mapreduce

①InputFormat调用RecordReader，从输入目录的文件中，读取一组数据，封装为keyin-valuein对象

2020-07-14

7020

hadoop集群的启动与停止

yarn node.js ssh hadoop 大数据

这些名称是我的三台机器的主机名，各位请改成自己的主机名！注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

2020-07-10

1.6K0

大数据面试题

flink 大数据 yarn hadoop node.js

①列举你使用的常用指令？ ②怎么查看服务是否开启？后面的参数都是什么意思？ ③怎么查看服务器内存使用情况？ ④日志查看指令？ ⑤跨机房怎么传输文件？

2020-07-10

5780

Hadoop生态圈

yarn hadoop 存储大数据 jvm

HDFS: 负责大数据的存储 Common: HDFS和MR共有的常用的工具包模块！ MapReduce: 负责计算，负责计算资源的申请的调度！

2020-07-06

4060

Hadoop运行模式及相关文件说明

xml bash bash 指令 hadoop yarn

hadoop框架在运行需要产生很多数据(日志)，数据的保存目录，必须让当前启动hadoop进程的用户拥有写权限！

2020-07-06

4190

HDFS和MR的配置和使用

bash bash 指令 hadoop xml 面向对象编程

①在$HADOOP_HOME/etc/hadoop/core-site.xml文件

2020-07-06

4570

hadoop2.x全分布式集群搭建（一主二从）

hadoop bash bash 指令 xml yarn

然后生成了id_rsa与id_rsa.pub，分别是私有与公有秘钥，我们要把公有秘钥复制到一个authorized_keys文件内，这个文件的作用就是完成无密码访问。然后执行：

2020-05-26

4860

hadoop mapreduce 分布式大数据存储

高速性（velocity）：大数据要求处理速度快，比如淘宝双十一需要实时显示交易数据

2019-09-29

5350

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态