腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
系统
分区
上
的
DateNode目录?
linux
、
hadoop
、
filesystems
、
hdfs
、
quota
我们在
Hadoop
集群上耗尽了以这种方式设置
的
空间: 恐怕
Hadoop
填充了
分区
,使
浏览 4
提问于2012-11-14
得票数 1
回答已采纳
1
回答
是否在HDFS集群上
重新
分配数据?
apache-spark
、
hadoop
、
hdfs
我正在阅读
Hadoop
和Spark文档,以了解spark如何在
Hadoop
集群上工作。根据
Hadoop
文档,
Hadoop
集群是一组具有计算和数据存储能力
的
通用硬件,它们还假定“移动计算比移动数据便宜”。 现在,当我处理一个大文件,它是存储在HDFS上使用火花。Spark是否会随机地将文件
中
的
数据
重新
分发到
Hadoop
集群,或者它知道存储数据
分区
的
节点将要求各自
的
节点处理其数据?我提
浏览 11
提问于2022-09-13
得票数 1
回答已采纳
1
回答
Hadoop
中
的
重新
分区
hadoop
、
hive
、
azure-hdinsight
、
hive-partitions
、
hiveddl
我
的
问题主要是理论上
的
,但是我有一些表已经遵循了某种
分区
方案,假设我
的
表是按天
分区
的
,但是在处理数据一段时间后,我们想要修改为月
分区
,我可以很容易地用新
的
分区
定义
重新
创建表并
重新
插入数据,这是最好
的
方法吗当数据量很大时,听起来很慢,我已经看到hive中有多个
分区
的
alter命令,有没有一个可以帮助我实现我需要
的
? 也许还有另一种
浏览 28
提问于2021-08-11
得票数 2
回答已采纳
1
回答
在CDH4
中
创建新
的
HDFS
ubuntu
、
mapreduce
、
cloudera
、
hadoop-yarn
我已经按照ubuntu版CDH4-Quick-Start.pdf
中
的
说明安装了CDH4。默认情况下,在/var/lib
中
创建了三个目录,即:
hadoop
-hdfs、
hadoop
-mapreduce和
hadoop
-yarn。因为我在这个
分区
中
没有太多空间,所以我希望在另一个
分区
中
至少有hdfs。我已经停止了hdfs,并更改了hdfs-site.xml中指向新
分区
中</em
浏览 0
提问于2014-02-01
得票数 0
1
回答
将DataFrame作为文本文件加载到HDFS和S3
中
scala
、
hadoop
、
apache-spark
、
dataframe
、
hdfs
我试图使用下面的代码将DataFrame作为文本文件加载到HDFS和S3
中
。DataFrame名为finalData。但是文件名和我提供
的
不一样,也不是文本格式
的
。正如我提到
的
那样,已经创建了一个具有名称
的
目录。test/File/test_20170918055206.txt/_SUCCESS 我想像我提到
的<
浏览 1
提问于2017-09-18
得票数 0
回答已采纳
2
回答
格式错误
的
ORC文件错误
hadoop
、
hive
myServer:port/my_table/prtn_date=yyyymm/part-m-00000__xxxxxxxxxxxxx Invalid postscript length 1 将RC格式
的
历史数据迁移到同一表
的
ORC格式
的
新定义(如果有)
的
过程是什么?
浏览 26
提问于2015-02-06
得票数 3
回答已采纳
1
回答
Hadoop
/Hive
中
是否存在Oracle
中
的
Range Type partitioning?
oracle
、
hadoop
、
hive
、
partitioning
我需要将
Hadoop
中
的
分区
与Oracle
中
的
分区
进行比较。我可以在
Hadoop
中找到类似的
分区
类型,比如列表
分区
和Hash
分区
,就动态
分区
和Bucketing而言,它们与Oracle类似。是否有在
Hadoop
/Hive
中
创建范围
分区
的
方法?
浏览 2
提问于2016-12-28
得票数 0
1
回答
在雅典娜
中
创建带有
分区
的
外部表会导致空表。
amazon-web-services
、
amazon-s3
、
amazon-athena
、
presto
我有一个s3位置,其中有一个按日期列
分区
的
拼花表。files files使用由dt列
分区
的
表'org.apache.
hadoop
.hive.ql.io.parquet.MapredParquetOutputFormat' 's3://location/of/data
浏览 3
提问于2021-07-27
得票数 0
回答已采纳
1
回答
由于源上
的
节点故障和更改
的
数据,从初始源一直
重新
计算Spark Partition
apache-spark
我不能模拟这一点,所以快速检查一下非流情况,只需DF或RDD常规处理:也就是说,我们在这里讨论
的
是不确定
的
情况。
浏览 26
提问于2019-05-12
得票数 0
回答已采纳
2
回答
MSCK修复表命令只有在
重新
创建表之后才能工作。
amazon-web-services
、
amazon-athena
MSCK REPAIR TABLE命令只在
重新
创建表之后添加
分区
。这个问题突然开始了,我
浏览 7
提问于2021-06-09
得票数 1
1
回答
查找火花作业输出文件
的
位置
pyspark
、
amazon-emr
我正在AWS上
的
EMR集群
中
测试火花放电作业。目标是使用Lambda函数触发火花作业,但现在我正在手动运行火花作业。因此,我将SSH发送到主节点,然后运行spark作业,如下所示:我
的
桶参数传递给火花作业。hdfs://ip-xxx-xx-xx-xx.ec2.internal:8020/home/
hadoop
/output.txt
浏览 4
提问于2019-12-03
得票数 0
2
回答
如何使用RDD在
分区
内排序(并避免跨
分区
排序)?
apache-spark
Hadoop
MapReduce洗牌
的
默认行为是在
分区
内对混叠键进行排序,而不是跨
分区
排序(使键跨
分区
排序
的
是总顺序)。我会问如何使用Spark (
分区
内排序,但不是跨
分区
排序)实现相同
的
目标。RDD
的
sortByKey方法是进行全排序 RDD
的
repartitionAndSortWithinPartitions是在
分区
内进行排序,而不是跨
分区
,但不幸
浏览 3
提问于2017-04-11
得票数 15
回答已采纳
2
回答
使用
Hadoop
流和新API文件格式时找不到类
java
、
python
、
hadoop
、
streaming
在使用具有新API和自定义(java)输出格式或(java) Reducer Class未找到
的
Hadoop
python流时,会出现问题。而同样
的
方法也适用于旧
的
API。-partitioner JavaClassName例如,如果你查看这篇博客文章:,如果你试图用新
的
Hadoop
浏览 1
提问于2014-04-21
得票数 0
3
回答
使用AWS Glue Crawler指定SerDe序列化库
amazon-web-services
、
amazon-athena
、
aws-glue
、
aws-glue-data-catalog
每次在现有数据上运行胶水爬虫时,它都会将Serde序列化库更改为LazySimpleSerDe,这不能正确分类(例如,对于带有逗号
的
引用字段)然后,我需要手动编辑Glue目录
中
的
表详细信息,以将其更改为org.apache.
hadoop
.hive.serde2.OpenCSVSerde。我试过做我自己
的
csv分类器,但没什么用。 如何让爬虫为生成或更新
的
表指定特定
的
序列化库?
浏览 0
提问于2019-08-14
得票数 9
1
回答
pyspark在输出
中
写入许多较小
的
文件
amazon-s3
、
pyspark
、
amazon-athena
我已经在athena
中
创建了一个表,它将用于查询此数据。except Exception as e:为什么spark要写
浏览 5
提问于2019-12-16
得票数 2
1
回答
sqoop导出mysql
分区
mysql
、
hadoop
、
hive
、
sqoop
我正在尝试使用sqoop从
分区
的
hive表导出到mysql。Open failed for file /path/to/table/<table name>/<partition name>, attempt to open a directoryat org.apache.
hadoop
.mapred.MapTask.run(MapTask.java:334) at org.apache.<e
浏览 1
提问于2013-01-21
得票数 0
回答已采纳
2
回答
当Google存储设置为属性
中
的
位置时,MSCK命令抛出错误
hadoop
、
hive
、
google-cloud-storage
我有一个外部
分区
的
蜂窝表,其位置被设置为‘gs://xxxx’,我手动添加了一些
分区
,并且为了
重新
划分
分区
,我运行了MSCK修复命令,其中抛出了以下错误: 失败:执行错误,从org.apache.
hadoop
.hive.ql.exec.DDLTask
浏览 0
提问于2017-03-28
得票数 1
回答已采纳
1
回答
如何检查
Hadoop
中
多节点集群
中
/user/
hadoop
分区
的
磁盘使用情况
hdfs
我正在寻求帮助,谁可以澄清我
的
怀疑。我已经设置了5节点集群环境。我已经在linux机器上安装了
hadoop
。现在,我需要检查每个machine.How
中
HDFS
分区
/用户/
hadoop
的
磁盘空间来检查它。在哪个
分区
中
,逻辑volume..Physicallly这个hdfs /user/
hadoop
分区
被分配。 是否可以在集群机器
中
执行cd /user
浏览 3
提问于2014-02-20
得票数 0
1
回答
kafka +如何将主题从一个磁盘传播到所有其他新磁盘
linux
、
apache-kafka
/kafka/data7我们在每台卡夫卡上配置了server.properies,然后在所有机器上
重新
启动所以我们现在是在卡夫卡重启之后 由于我们有额外
的
7个磁盘,所以我们希望将位于/var/kafka/data1
的
主题与所有其他新磁盘分开。但是在Kafka代理
重新
启动并且除了- /var/kafka
浏览 1
提问于2022-01-18
得票数 0
回答已采纳
2
回答
在
Hadoop
streaming中使用TotalOrderPartitioner
python
、
hadoop
我正在使用python和
Hadoop
streaming来做一个项目,我需要
Hadoop
中
的
TotalOrderPartitioner和InputSampler提供
的
类似功能,也就是说,我需要首先采样数据并创建
分区
文件,然后使用
分区
文件来决定哪个K-V对将转到映射器
中
的
哪个reducer。我需要在
Hadoop
1.0.4
中
执行此操作。我只能找到一些使用KeyFieldBasedPartitioner
浏览 1
提问于2014-05-14
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
删除分区再重新分区的好方法!
如何正确的给硬盘重新分区!
Hadoop Hadoop中的推测执行
如何写入到Linux中的Windows分区?
深入理解与应用Hadoop中的MapReduce
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券