#Hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

为什么我在公司访问自己云服务集群时会跳到公司的内网上?

chenasxz晚睡癌。

我觉得这个是不是你公司网关的问题,是不是存在什么限制呀,用其他网络环境也是这样么?

Hadoop实操中的shell脚本在哪里有?

如何搭建Hadoop处理环境?

asioc一个程序员
软件环境: 虚拟机:VMware Pro14 Linux:CentOS-6.4(下载地址,下载DVD版本即可) JDK:OpenJDK1.8.0 (强力建议不要使用 Oracle 公司的 Linux 版本的 JDK) Hadoop:2.6.5(下载地址) 虚拟机的安装和Linux...... 展开详请

使用Sequencefile的Hadoop流非常慢

秋之夕颜清念念不忘,必有回响

顺序文件中的值大小不相等,其中一些非常大,但其他则很小 - 导致数据偏斜

Hadoop“权限被拒绝(公钥,密码,键盘交互)”警告?

小川医学生
问题是当你试图SSH到服务器(在本例中是localhost)时,它试图使用你的证书对你进行身份验证。并存储该信息。但是这里没有配置无密码认证,所以每次你尝试使用ssh时,都会询问你的密码,这在machines try to communicate with each other...... 展开详请

Hadoop Spark - 存储在一个大文件中,而不是许多小文件和索引?

Rexsen程序猿

你可以每天重写相同的旧文件。DF.Write.mode(SaveMode.overwrite)

如何安装ClouderaHadoop包,有不同的方法吗?

chocolateboyiOS工程师
如果你使用的是Debian或Ubuntu,那么你要使用DEB包,而不是RPM。 包应该起作用 从源代码编译代码也是如此。 仅仅因为你正在运行Cloudera并不能使系统更像一个普通的Linux机器... 展开详请

如何解决LinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDescriptor?

萌萌呆想玩游戏却不知道这么开机的吃瓜少年。

使用Java 10的org.apache.xbean.asm5.ClassReader。<init>(未知来源)中的java.lang.IllegalArgumentException?

皮皮洽移动互联网、心里咨询师、产品设计经理
已采纳
有没有人有任何其他原因导致我不断收到错误? 当前的Apache Spark版本不支持Java 9或更高版本。对这些(或更高版本)的支持计划在3.0版本中发布。 暂时运行Spark你必须使用JDK 8。 来源:Apache Spark 3.0的时间?... 展开详请

在Spark / Python中转发填充缺失值

我找到了一个解决方案,通过在这里使用Window,无需额外编码。所以杰夫是正确的,有一个解决方案。完整的代码boelow,我将简要解释它的作用,更多细节只需看看博客。 from pyspark.sql import Window from pyspark.sql.functio...... 展开详请

没有在本地机器启动的Hadoop独立模式有权限问题

此错误通常意味着您无法设置无密码SSH。例如,同样的错误应该发生ssh localhost,它不应该提示输入密码 再次检查SSH密钥生成中的Hadoop文档并将其添加到授权密钥文件中 如果沙箱需要太多资源,我可能会建议设置一个虚拟机(例如,使用Vagrant)。Hortonwo...... 展开详请

Hadoop:start-dfs.sh连接被拒绝

圣才码农

我为Hadoop3.1.0修正了这个问题,增加了

PDSH_RCMD_TYPE=ssh

在我的.bashrc以及$HADOOP_HOME/etc/hadoop/hadoop-env.sh

如何从Hadoop中删除文件/文件夹?

要从HDFS中删除文件,可以使用以下命令: hadoop fs -rm -r -skipTrash /path_to_file/file_name 要从HDFS中删除文件夹,可以使用以下命令: hadoop fs -rm -r -skipTrash /folder_name ... 展开详请

从Hadoop中删除文件/文件夹

要从HDFS中删除文件,可以使用以下命令: hadoop fs -rm -r -skipTrash /path_to_file/file_name 要从HDFS中删除文件夹,可以使用以下命令: hadoop fs -rm -r -skipTrash /folder_name 需...... 展开详请

分布式局部聚类系数算法(MapReduce/Hadoop)

在计算三角形的方法-除非你的图相当密集,否则效率可能要低得多。首先,构造图的邻接矩阵A,然后计算A^3(你可以很容易地并行地做矩阵乘法)。然后,将A^3的(i,i)项相加,再除以6。这就给出了三角形的数目,因为A^k的i,j条目。计算长度k从i到j的次数,因为我们只看3步的长度...... 展开详请

什么意味着Apache hadoop节点之间的距离?

Hadoop HDFS是一个分布式系统,更大的集群意味着更多的网络交换机。 当您正在读取文件时抛出HDFS,首先,您请求名称节点以获取有关文件块位置的信息。这些块分布在不同的机器上。 如果在某个时刻检索数据的datanode,你可以从另一个副本获得这些数据,而不会打扰用户。您将...... 展开详请

Hadoop中的内存不足错误如何解决?

/etc/Hadoop/Hadoop-env.sh设置Hadoop的最大java堆内存,默认情况下是: export HADOOP_CLIENT_OPTS="-Xmx128m $HADOOP_CLIENT_OPTS" 此xmx设置太低,只需将其更改为此并重新运行即可。 ...... 展开详请

hadoop中hcatalog的用法是什么?

简而言之,HCatalog打开了其他地图精简工具的配置单元元数据。每个mapreduce工具都有自己的关于HDFS数据的概念(例如Pig将HDFS数据视为一组文件,Hive将其视为表)。借助基于表格的抽象,HCatalog支持的mapreduce工具不需要关心数据的存储位置,格...... 展开详请

如何在命令行中打印Hadoop属性?

可以使用GenericOptionsParser将Hadoop的设置加载到配置类型对象并迭代其属性。下面是一个通过实用程序类(配置)演示这种方法的示例。 public class ConfigPrinter extends Configured implements Tool ...... 展开详请

Hadoop中的数据复制错误,怎么办?

看看你的NameNode(可能)http://localhost:50070),看看它说你有多少个数据结点。 如果它是0,那么要么您的DataNode没有运行,要么它没有配置为连接到NameNode。 如果是1,请检查DFS中有多少空闲空间。可能是数据节点没有可以写入数据的地方...... 展开详请

扫码关注云+社区