Hadoop中的重新分区

文章/答案/技术大牛

发布

1回答

系统分区上的DateNode目录？

linux、hadoop、filesystems、hdfs、quota

我们在Hadoop集群上耗尽了以这种方式设置的空间：恐怕Hadoop填充了分区，使

浏览 4提问于2012-11-14得票数 1

回答已采纳

1回答

我正在阅读Hadoop和Spark文档，以了解spark如何在Hadoop集群上工作。根据Hadoop文档，Hadoop集群是一组具有计算和数据存储能力的通用硬件，它们还假定“移动计算比移动数据便宜”。现在，当我处理一个大文件，它是存储在HDFS上使用火花。Spark是否会随机地将文件中的数据重新分发到Hadoop集群，或者它知道存储数据分区的节点将要求各自的节点处理其数据？我提

浏览 11提问于2022-09-13得票数 1

回答已采纳

1回答

hadoop、hive、azure-hdinsight、hive-partitions、hiveddl

我的问题主要是理论上的，但是我有一些表已经遵循了某种分区方案，假设我的表是按天分区的，但是在处理数据一段时间后，我们想要修改为月分区，我可以很容易地用新的分区定义重新创建表并重新插入数据，这是最好的方法吗当数据量很大时，听起来很慢，我已经看到hive中有多个分区的alter命令，有没有一个可以帮助我实现我需要的？也许还有另一种

浏览 28提问于2021-08-11得票数 2

回答已采纳

1回答

在CDH4中创建新的HDFS

ubuntu、mapreduce、cloudera、hadoop-yarn

我已经按照ubuntu版CDH4-Quick-Start.pdf中的说明安装了CDH4。默认情况下，在/var/lib中创建了三个目录，即: hadoop-hdfs、hadoop-mapreduce和hadoop-yarn。因为我在这个分区中没有太多空间，所以我希望在另一个分区中至少有hdfs。我已经停止了hdfs，并更改了hdfs-site.xml中指向新分区中</em

浏览 0提问于2014-02-01得票数 0

1回答

将DataFrame作为文本文件加载到HDFS和S3中

scala、hadoop、apache-spark、dataframe、hdfs

我试图使用下面的代码将DataFrame作为文本文件加载到HDFS和S3中。DataFrame名为finalData。但是文件名和我提供的不一样，也不是文本格式的。正如我提到的那样，已经创建了一个具有名称的目录。test/File/test_20170918055206.txt/_SUCCESS 我想像我提到的<

浏览 1提问于2017-09-18得票数 0

回答已采纳

2回答

格式错误的ORC文件错误

hadoop、hive

myServer:port/my_table/prtn_date=yyyymm/part-m-00000__xxxxxxxxxxxxx Invalid postscript length 1 将RC格式的历史数据迁移到同一表的ORC格式的新定义(如果有)的过程是什么？

浏览 26提问于2015-02-06得票数 3

回答已采纳

1回答

Hadoop/Hive中是否存在Oracle中的Range Type partitioning？

oracle、hadoop、hive、partitioning

我需要将Hadoop中的分区与Oracle中的分区进行比较。我可以在Hadoop中找到类似的分区类型，比如列表分区和Hash分区，就动态分区和Bucketing而言，它们与Oracle类似。是否有在Hadoop/Hive中创建范围分区的方法？

浏览 2提问于2016-12-28得票数 0

1回答

在雅典娜中创建带有分区的外部表会导致空表。

amazon-web-services、amazon-s3、amazon-athena、presto

我有一个s3位置，其中有一个按日期列分区的拼花表。files files使用由dt列分区的表'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' 's3://location/of/data

浏览 3提问于2021-07-27得票数 0

回答已采纳

1回答

由于源上的节点故障和更改的数据，从初始源一直重新计算Spark Partition

apache-spark

我不能模拟这一点，所以快速检查一下非流情况，只需DF或RDD常规处理：也就是说，我们在这里讨论的是不确定的情况。

浏览 26提问于2019-05-12得票数 0

回答已采纳

2回答

MSCK修复表命令只有在重新创建表之后才能工作。

amazon-web-services、amazon-athena

MSCK REPAIR TABLE命令只在重新创建表之后添加分区。这个问题突然开始了，我

浏览 7提问于2021-06-09得票数 1

1回答

查找火花作业输出文件的位置

pyspark、amazon-emr

我正在AWS上的EMR集群中测试火花放电作业。目标是使用Lambda函数触发火花作业，但现在我正在手动运行火花作业。因此，我将SSH发送到主节点，然后运行spark作业，如下所示：我的桶参数传递给火花作业。hdfs://ip-xxx-xx-xx-xx.ec2.internal:8020/home/hadoop/output.txt

浏览 4提问于2019-12-03得票数 0

2回答

如何使用RDD在分区内排序(并避免跨分区排序)？

apache-spark

Hadoop MapReduce洗牌的默认行为是在分区内对混叠键进行排序，而不是跨分区排序(使键跨分区排序的是总顺序)。我会问如何使用Spark (分区内排序，但不是跨分区排序)实现相同的目标。RDD的sortByKey方法是进行全排序 RDD的repartitionAndSortWithinPartitions是在分区内进行排序，而不是跨分区，但不幸

浏览 3提问于2017-04-11得票数 15

回答已采纳

2回答

使用Hadoop流和新API文件格式时找不到类

java、python、hadoop、streaming

在使用具有新API和自定义(java)输出格式或(java) Reducer Class未找到的Hadoop python流时，会出现问题。而同样的方法也适用于旧的API。-partitioner JavaClassName例如，如果你查看这篇博客文章：，如果你试图用新的Hadoop

浏览 1提问于2014-04-21得票数 0

3回答

使用AWS Glue Crawler指定SerDe序列化库

amazon-web-services、amazon-athena、aws-glue、aws-glue-data-catalog

每次在现有数据上运行胶水爬虫时，它都会将Serde序列化库更改为LazySimpleSerDe，这不能正确分类(例如，对于带有逗号的引用字段)然后，我需要手动编辑Glue目录中的表详细信息，以将其更改为org.apache.hadoop.hive.serde2.OpenCSVSerde。我试过做我自己的csv分类器，但没什么用。如何让爬虫为生成或更新的表指定特定的序列化库？

浏览 0提问于2019-08-14得票数 9

1回答

pyspark在输出中写入许多较小的文件

amazon-s3、pyspark、amazon-athena

我已经在athena中创建了一个表，它将用于查询此数据。except Exception as e:为什么spark要写

浏览 5提问于2019-12-16得票数 2

1回答

sqoop导出mysql分区

mysql、hadoop、hive、sqoop

我正在尝试使用sqoop从分区的hive表导出到mysql。Open failed for file /path/to/table/<table name>/<partition name>, attempt to open a directoryat org.apache.hadoop.mapred.MapTask.run(MapTask.java:334) at org.apache.<e

浏览 1提问于2013-01-21得票数 0

回答已采纳

2回答

当Google存储设置为属性中的位置时，MSCK命令抛出错误

hadoop、hive、google-cloud-storage

我有一个外部分区的蜂窝表，其位置被设置为‘gs://xxxx’，我手动添加了一些分区，并且为了重新划分分区，我运行了MSCK修复命令，其中抛出了以下错误：失败:执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask

浏览 0提问于2017-03-28得票数 1

回答已采纳

1回答

如何检查Hadoop中多节点集群中/user/hadoop分区的磁盘使用情况

hdfs

我正在寻求帮助，谁可以澄清我的怀疑。我已经设置了5节点集群环境。我已经在linux机器上安装了hadoop。现在，我需要检查每个machine.How中HDFS分区/用户/hadoop的磁盘空间来检查它。在哪个分区中，逻辑volume..Physicallly这个hdfs /user/hadoop分区被分配。是否可以在集群机器中执行cd /user

浏览 3提问于2014-02-20得票数 0

1回答

kafka +如何将主题从一个磁盘传播到所有其他新磁盘

linux、apache-kafka

/kafka/data7我们在每台卡夫卡上配置了server.properies，然后在所有机器上重新启动所以我们现在是在卡夫卡重启之后由于我们有额外的7个磁盘，所以我们希望将位于/var/kafka/data1的主题与所有其他新磁盘分开。但是在Kafka代理重新启动并且除了- /var/kafka&#

浏览 1提问于2022-01-18得票数 0

回答已采纳

2回答

在Hadoop* streaming中使用TotalOrderPartitioner*

python、hadoop

我正在使用python和Hadoop streaming来做一个项目，我需要Hadoop中的TotalOrderPartitioner和InputSampler提供的类似功能，也就是说，我需要首先采样数据并创建分区文件，然后使用分区文件来决定哪个K-V对将转到映射器中的哪个reducer。我需要在Hadoop 1.0.4中执行此操作。我只能找到一些使用KeyFieldBasedPartitioner

浏览 1提问于2014-05-14得票数 0

点击加载更多

系统分区上的DateNode目录？

是否在HDFS集群上重新分配数据？