如何在不使用hdfs情况下并行计算每个工作进程上的csv文件存储？

、

与hadoop上的data localy概念相同，但我不想使用hdfs。我有3个打工仔。我想计算一个大的csv文件名，例如mydata.csv。我将mydata.csv拆分成小文件(mydata_part_001.csv ...mydata_part_100.csv)并存储在每个工作者的本地文件</

浏览 11提问于2019-10-17得票数 0

1回答

如何从Linux/HDFS将CSV文件导入mongo DB

、、、

我正在使用CestOS6.7上的Mongo版本2.6.12。它是非群集的，即只安装在一台服务器上。Mongoimport不</em

浏览 5提问于2017-01-31得票数 0

1回答

在集群上运行的Dask程序中未找到文件错误

、、、

调度程序、客户端和工作人员运行在M1上。我已经在M1中放置了一个csv文件。其余的机器都是工人。当我在dask中使用read_csv文件运行程序时。它给了我错误，文件找不到

浏览 1提问于2018-06-22得票数 3

回答已采纳

1回答

Spark数据帧未使用工作进程

、、

我有一个包含3个工作节点的spark集群，当我尝试从hdfs加载csv文件时，它只使用系统上的资源(cpu和内存)，我通过spark-shell (使用的主节点)加载csv 加载数据帧 val df= spark.read.format("csv").load("

浏览 20提问于2020-08-13得票数 0

2回答

HDFS在哪里存储它的文件

、

这可能是非常基本的。单个节点HDFS在哪里存储与实际文件系统有关的文件？hadoop fs -copyFromLocal /home/cloudera/sample.txt hdfs://local

浏览 0提问于2015-12-30得票数 2

2回答

MATLAB CPU的使用失去控制，即使使用-singleCompThread。

、、、

我有一个用户在问为什么他的MATLAB进程在top中使用了800%的CPU。他有四个这样的MATLAB程序。sort -u | cut -d ":" -f2abc@server1[~]$ grep -c "processor" /proc/cpuinfo4进程使用不知何故，我对此表示怀疑，但考虑到在启用了-singleCompThread的</e

浏览 4提问于2013-12-18得票数 1

回答已采纳

1回答

Nifi:需要澄清合并内容处理器

、、

因为我不认为它能像我上司想的那样起作用。我们从FTP获取了大约8个csv文件，这些文件非常小(不足1MB)。他(我认为是正确的)担心HDFS上的集群大小将被浪费。所以他想使用合并内容处理器来解决这个问题。他似乎相信合并内容处理器会“整理”同名的文件，从而产生一个更大的单一文件。为了澄清:他希望它工作的方式是，如果今天的

浏览 0提问于2019-06-01得票数 2

回答已采纳

1回答

Spark 2.3.1结构化流状态存储内部工作

、

我一直在浏览spark 2.3.1关于结构化流的文档，但是无法找到有状态操作如何在内部与状态存储一起工作的详细信息。更具体地说，我想知道的是：(1)状态存储是否分布？(2)如果是，那么每个工作人员还是核心？似乎在以前版本的火花，它是每个工人，但暂时不知道。我知道它是由HDFS支持的，但是没有解释内存存储实际上是如何工作

浏览 0提问于2018-08-17得票数 10

2回答

当尝试使用pyarrow.lib.ArrowIOError读取文件时，如何解释这个“HDFS文件不存在”的错误？

、、、

我正在使用Dask分布式，并试图从存储在HDFS中的CSV创建一个数据格式。我认为与HDFS的连接是成功的，因为我能够打印dataframe列的名称。但是，当我试图在dataframe上使用len函数或任何其他函数时，会出现以下错误： pyarrow.lib.ArrowIOError: HDFS file does not exist: /user/folder

浏览 2提问于2019-04-30得票数 0

回答已采纳

1回答

我使用HAWQ来处理一个基于列的文件。在读取关键文档时，他们建议用户使用gpfdist读取和写入可读外部表，以便以并行方式快速处理数据。text,col3 text, col4 text, col5 int, col6 int, col7 int,col8 int) LOCATION ('gpfdist://hawq2:8085/*.csv数据均匀分布在所有从节点上。以前，我的目标是创建表，从文件中读取数据，并识

浏览 12提问于2017-03-09得票数 0

回答已采纳

1回答

火花RDD外部存储

、、、、

我编写了一个python代码sum.py，用于总结目录data中每个csv文件的所有数字。现在，我将使用Amazon (AWS)上的(AWS)来并行处理每个csv文件的求和过程。在AWS主节点上，我还使用data将包含所有csv文件的目录放到HDFS中。现在，当我在AWS主节点：$

浏览 4提问于2015-07-21得票数 2

回答已采纳

1回答

并行化GZip文件处理火花

、、、、

我有一个巨大的GZip文件列表，需要转换为Parquet。由于GZip的压缩特性，无法对一个文件进行并行化。我可以并行化文件<

浏览 0提问于2016-02-15得票数 3

1回答

用Dask从文件系统/S3中并行读取文件块？

、

我正在整理一个概念证明，在分布式环境中，我希望使用PyCuda来处理字符数据的大文件(每个任务在一个文件中~8GB)- AWS是具体的。我知道HDFS将分割数据文件并将其分发给工作人员，但我正在尽量保持环境的简单性，如果不必安装Hadoop，我宁愿不必安装Hadoop。我最近看了几次来自连续分析的关于他们的Dask框架的网络研讨会，看起来它将完全满足我的<

浏览 2提问于2016-05-16得票数 3

回答已采纳

1回答

Apache :在工作节点而不是主节点上创建的文件

、、

我在本地pc上配置了一个主计算机，在virtualbox中配置了一个工作节点，结果文件已经在worker节点上创建，我想知道为什么发送回主节点。我尝试了--部署模式客户端和--部署模式集群。我试过一次，然后切换了主/工作者节点，得到了相同的结果。tr

浏览 0提问于2018-02-28得票数 0

回答已采纳

2回答

Spark，输入文件的路径

、

我在本地PC上有一个主机，并使用两台服务器作为工作人员。当我启动Spark程序时，首先我必须导入我的输入文件。对于正确的输入(目前)，我应该将我的输入文件放在master和worker的硬盘上(路径必须相同)。这意味着相同的数据集应该放在三个不同的地方。如何避免这种情况，并将我的数据集存储在唯一的位置，而不会出现输入错误？

浏览 0提问于2016-04-05得票数 0

4回答

Amazon -当我们有核心节点时，任务节点的需求是什么？

、、

Master，它运行主要的Hadoop守护进程，如NameNode、作业跟踪器和资源管理器。我问你们为什么EMR会提供任务节点？正如hadoop所建议的，我们应该在同一个节点上拥有Datanode守护进程和Tasktracker守护进程。亚马逊这么做背后的逻辑是什么？您可以将数据保存在S3流中，将其保存到核

浏览 6提问于2017-01-07得票数 23

2回答

如何理解hadoop文件大小和局部性优化

默认情况下，Hadoop块大小为64 is。建议Hadoop中的每个文件小于64 so，因此每个文件都位于一个块中。当一个map函数启动时，它可以从一个块读取文件的所有数据，而不需要额外的数据传输。我的问题是，这个规则是否适用于可以拆分的文件？例如大多数文本文件，csv文件。每个映射函数只处理一个文件

浏览 3提问于2015-03-08得票数 0

回答已采纳

3回答

如何配置pyspark默认写入HDFS？

、、

默认情况下，我正在尝试将spark写入HDFS。目前，当我在RDD上调用saveAsTextFile时，它会写入我的本地文件系统。具体地说，如果我这样做：rdd.saveAsTextFile("/tmp/sample") 它将写入我的本地文件系统中一个名为/tmp/sample的文件。然后将其保存到本地hdfs<

浏览 0提问于2017-11-28得票数 1

2回答

大数据- Lambda架构和存储原始数据

、、

目前，我正在使用cassandra为我的功能用例存储数据(向用户显示时间序列和合并数据)。Cassandra非常擅长它，如果您设计正确的数据模型(查询驱动)Lambda架构只是大数据架构师和技术独立的设计模式，可以将这些层组合在一起据我所知，需要考虑的一件大事是在任何处理之前存储原始数据。您需要这样做，以恢复任何问题，基于人的(算法问题，删除表在PROD，诸如此类的

浏览 3提问于2017-04-14得票数 1

回答已采纳

2回答

Dataproc的基本概念:它是如何操作的？

、

我正在尝试理解dataproc的操作方面。如果我创建一个dataproc集群，并让该集群节点同时运行该脚本，那么如何在集群节点之间实现并行化呢？每个节点会尝试读取所有文件并进行聚合，还是每个节点都会自动读取各自的

浏览 2提问于2018-11-24得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从Linux/HDFS将CSV文件导入mongo DB

在集群上运行的Dask程序中未找到文件错误

Spark数据帧未使用工作进程

HDFS在哪里存储它的文件

MATLAB CPU的使用失去控制，即使使用-singleCompThread。

Nifi:需要澄清合并内容处理器

Spark 2.3.1结构化流状态存储内部工作

当尝试使用pyarrow.lib.ArrowIOError读取文件时，如何解释这个“HDFS文件不存在”的错误？

使用Apache时外部表和内部表的区别？

火花RDD外部存储

并行化GZip文件处理火花

用Dask从文件系统/S3中并行读取文件块？

Apache :在工作节点而不是主节点上创建的文件

Spark，输入文件的路径

Amazon -当我们有核心节点时，任务节点的需求是什么？

如何理解hadoop文件大小和局部性优化

如何配置pyspark默认写入HDFS？

大数据- Lambda架构和存储原始数据

Dataproc的基本概念:它是如何操作的？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐