腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
不
使用
hdfs
情况下
并行计算
每个
工作
进程
上
的
csv
文件
存储
?
、
与hadoop
上
的
data localy概念相同,但我不想
使用
hdfs
。 我有3个打工仔。 我想计算一个大
的
csv
文件
名,例如mydata.
csv
。我将mydata.
csv
拆分成小
文件
(mydata_part_001.
csv
...mydata_part_100.
csv
)并
存储
在
每个
工作
者
的
本地
文件</
浏览 11
提问于2019-10-17
得票数 0
1
回答
如何从Linux/
HDFS
将
CSV
文件
导入mongo DB
、
、
、
我正在
使用
CestOS6.7
上
的
Mongo版本2.6.12。它是非群集
的
,即只安装在一台服务器
上
。Mongoimport
不</em
浏览 5
提问于2017-01-31
得票数 0
1
回答
在集群
上
运行
的
Dask程序中未找到
文件
错误
、
、
、
调度程序、客户端和
工作
人员运行在M1
上
。我已经在M1中放置了一个
csv
文件
。其余
的
机器都是工人。 当我在dask中
使用
read_
csv
文件
运行程序时。它给了我错误,
文件
找不到
浏览 1
提问于2018-06-22
得票数 3
回答已采纳
1
回答
Spark数据帧未
使用
工作
进程
、
、
我有一个包含3个
工作
节点
的
spark集群,当我尝试从
hdfs
加载
csv
文件
时,它只
使用
系统
上
的
资源(cpu和内存),我通过spark-shell (
使用
的
主节点)加载
csv
加载数据帧 val df= spark.read.format("
csv
").load("
浏览 20
提问于2020-08-13
得票数 0
2
回答
HDFS
在哪里
存储
它
的
文件
、
这可能是非常基本
的
。单个节点
HDFS
在哪里
存储
与实际
文件
系统有关
的
文件
?hadoop fs -copyFromLocal /home/cloudera/sample.txt
hdfs
://local
浏览 0
提问于2015-12-30
得票数 2
2
回答
MATLAB CPU
的
使用
失去控制,即使
使用
-singleCompThread。
、
、
、
我有一个用户在问为什么他
的
MATLAB
进程
在top中
使用
了800%
的
CPU。他有四个这样
的
MATLAB程序。sort -u | cut -d ":" -f2abc@server1[~]$ grep -c "processor" /proc/cpuinfo4
进程
使用
不知何故,我对此表示怀疑,但考虑到在启用了-singleCompThread
的</e
浏览 4
提问于2013-12-18
得票数 1
回答已采纳
1
回答
Nifi:需要澄清合并内容处理器
、
、
因为我不认为它能像我上司想
的
那样起作用。 我们从FTP获取了大约8个
csv
文件
,这些
文件
非常小(不足1MB)。他(我认为是正确
的
)担心
HDFS
上
的
集群大小将被浪费。所以他想
使用
合并内容处理器来解决这个问题。他似乎相信合并内容处理器会“整理”同名
的
文件
,从而产生一个更大
的
单一
文件
。为了澄清:他希望它
工作
的
方式是,如果今天
的
浏览 0
提问于2019-06-01
得票数 2
回答已采纳
1
回答
Spark 2.3.1结构化流状态
存储
内部
工作
、
我一直在浏览spark 2.3.1关于结构化流
的
文档,但是无法找到有状态操作如
何在
内部与状态
存储
一起
工作
的
详细信息。更具体地说,我想知道
的
是:(1)状态
存储
是否分布?(2)如果是,那么
每个
工作
人员还是核心? 似乎在以前版本
的
火花,它是
每个
工人,但暂时不知道。我知道它是由
HDFS
支持
的
,但是没有解释内存
存储
实际
上
是如何
工作
浏览 0
提问于2018-08-17
得票数 10
2
回答
当尝试
使用
pyarrow.lib.ArrowIOError读取
文件
时,如何解释这个“
HDFS
文件
不存在”
的
错误?
、
、
、
我正在
使用
Dask分布式,并试图从
存储
在
HDFS
中
的
CSV
创建一个数据格式。我认为与
HDFS
的
连接是成功
的
,因为我能够打印dataframe列
的
名称。但是,当我试图在dataframe
上
使用
len函数或任何其他函数时,会出现以下错误: pyarrow.lib.ArrowIOError:
HDFS
file does not exist: /user/folder
浏览 2
提问于2019-04-30
得票数 0
回答已采纳
1
回答
使用
Apache时外部表和内部表
的
区别?
我
使用
HAWQ来处理一个基于列
的
文件
。在读取关键文档时,他们建议用户
使用
gpfdist读取和写入可读外部表,以便以并行方式快速处理数据。text,col3 text, col4 text, col5 int, col6 int, col7 int,col8 int) LOCATION ('gpfdist://hawq2:8085/*.
csv
数据均匀分布在所有从节点
上
。以前,我
的
目标是创建表,从
文件
中读取数据,并识
浏览 12
提问于2017-03-09
得票数 0
回答已采纳
1
回答
火花RDD外部
存储
、
、
、
、
我编写了一个python代码sum.py,用于总结目录data中
每个
csv
文件
的
所有数字。现在,我将
使用
Amazon (AWS)
上
的
(AWS)来并行处理
每个
csv
文件
的
求和过程。在AWS主节点
上
,我还
使用
data将包含所有
csv
文件
的
目录放到
HDFS
中。 现在,当我在AWS主节点:$
浏览 4
提问于2015-07-21
得票数 2
回答已采纳
1
回答
并行化GZip
文件
处理火花
、
、
、
、
我有一个巨大
的
GZip
文件
列表,需要转换为Parquet。由于GZip
的
压缩特性,无法对一个
文件
进行并行化。我可以并行化
文件<
浏览 0
提问于2016-02-15
得票数 3
1
回答
用Dask从
文件
系统/S3中并行读取
文件
块?
、
我正在整理一个概念证明,在分布式环境中,我希望
使用
PyCuda来处理字符数据
的
大
文件
(
每个
任务在一个
文件
中~8GB)- AWS是具体
的
。我知道
HDFS
将分割数据
文件
并将其分发给
工作
人员,但我正在尽量保持环境
的
简单性,如果不必安装Hadoop,我宁愿不必安装Hadoop。我最近看了几次来自连续分析
的
关于他们
的
Dask框架
的
网络研讨会,看起来它将完全满足我
的<
浏览 2
提问于2016-05-16
得票数 3
回答已采纳
1
回答
Apache :在
工作
节点而不是主节点
上
创建
的
文件
、
、
我在本地pc
上
配置了一个主计算机,在virtualbox中配置了一个
工作
节点,结果
文件
已经在worker节点
上
创建,我想知道为什么发送回主节点。我尝试了--部署模式客户端和--部署模式集群。 我试过一次,然后切换了主/
工作
者节点,得到了相同
的
结果。tr
浏览 0
提问于2018-02-28
得票数 0
回答已采纳
2
回答
Spark,输入
文件
的
路径
、
我在本地PC上有一个主机,并
使用
两台服务器作为
工作
人员。当我启动Spark程序时,首先我必须导入我
的
输入
文件
。对于正确
的
输入(目前),我应该将我
的
输入
文件
放在master和worker
的
硬盘上(路径必须相同)。这意味着相同
的
数据集应该放在三个不同
的
地方。如何避免这种情况,并将我
的
数据集
存储
在唯一
的
位置,而不会出现输入错误?
浏览 0
提问于2016-04-05
得票数 0
4
回答
Amazon -当我们有核心节点时,任务节点
的
需求是什么?
、
、
Master,它运行主要
的
Hadoop守护
进程
,
如
NameNode、作业跟踪器和资源管理器。 我问你们为什么EMR会提供任务节点?正如hadoop所建议
的
,我们应该在同一个节点
上
拥有Datanode守护
进程
和Tasktracker守护
进程
。亚马逊这么做背后
的
逻辑是什么?您可以将数据保存在S3流中,将其保存到核
浏览 6
提问于2017-01-07
得票数 23
2
回答
如何理解hadoop
文件
大小和局部性优化
默认
情况下
,Hadoop块大小为64 is。建议Hadoop中
的
每个
文件
小于64 so,因此
每个
文件
都位于一个块中。当一个map函数启动时,它可以从一个块读取
文件
的
所有数据,而不需要额外
的
数据传输。我
的
问题是,这个规则是否适用于可以拆分
的
文件
?例如大多数文本
文件
,
csv
文件
。
每个
映射函数只处理一个
文件
浏览 3
提问于2015-03-08
得票数 0
回答已采纳
3
回答
如何配置pyspark默认写入
HDFS
?
、
、
默认
情况下
,我正在尝试将spark写入
HDFS
。目前,当我在RDD上调用saveAsTextFile时,它会写入我
的
本地
文件
系统。具体地说,如果我这样做:rdd.saveAsTextFile("/tmp/sample") 它将写入我
的
本地
文件
系统中一个名为/tmp/sample
的
文件
。然后将其保存到本地
hdfs<
浏览 0
提问于2017-11-28
得票数 1
2
回答
大数据- Lambda架构和
存储
原始数据
、
、
目前,我正在
使用
cassandra为我
的
功能用例
存储
数据(向用户显示时间序列和合并数据)。Cassandra非常擅长它,如果您设计正确
的
数据模型(查询驱动)Lambda架构只是大数据架构师和技术独立
的
设计模式,可以将这些层组合在一起据我所知,需要考虑
的
一件大事是在任何处理之前
存储
原始数据。您需要这样做,以恢复任何问题,基于人
的
(算法问题,删除表在PROD,诸如此类
的
浏览 3
提问于2017-04-14
得票数 1
回答已采纳
2
回答
Dataproc
的
基本概念:它是如何操作
的
?
、
我正在尝试理解dataproc
的
操作方面。如果我创建一个dataproc集群,并让该集群节点同时运行该脚本,那么如
何在
集群节点之间实现并行化呢?
每个
节点会尝试读取所有
文件
并进行聚合,还是
每个
节点都会自动读取各自
的
浏览 2
提问于2018-11-24
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据架构入门必看,分布式文件系统HDFS解读
架构入门必看,分布式文件系统HDFS解读
Hadoop生态圈初识
大数据之Hadoop3简介
如何在Weka中加载CSV机器学习数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券