在集群模式下使用Java读取Spark中保存在本地的CSV文件_在集群模式下使用spark将pandas数据帧(.csv)写入本地系统或hdfs - 腾讯云开发者社区

java、csv、apache-spark、hdfs、cluster-mode

我正在尝试读取保存在UNIX本地文件系统中的CSV文件，但在集群模式下运行时找不到该CSV文件。在本地模式下，它可以读取HDFS和file:///文件。但是，在集群模式下，

浏览 91提问于2021-10-14得票数 0

1回答

星星之交向驱动程序发送错误的java路径。

apache-spark、spark-submit

我正在向本地运行的容器式星火集群提交一个作业。火花版本3.2.1。我用的是比纳米的火花筒图像。这项工作是用scala编写的。我创造了一个“胖罐子”。现在，当我以客户端模式(--deploy-mode client)将jar提交到集群(从本地容器到容器外部)时，在本地文件系统中提供jar的路径。工作成功完成。"/Library/<em

浏览 1提问于2022-09-08得票数 1

1回答

如何在Oozie spark scala作业中将文件从本地复制到HDFS目录？

scala、apache-spark、hadoop、oozie

我正在尝试使用scala将一些文件从本地路径复制到hdfs，并使用oozie运行它。作业失败，因为它无法从本地路径读取文件。有没有办法在oozie中读取本地文件？

浏览 0提问于2020-03-31得票数 0

3回答

火花加载文件:路径不存在

apache-spark、pyspark、emr、amazon-emr、pyspark-sql

我是星火的新手。我试图在EMR集群中读取本地csv文件。该文件位于: /home/hadoop/。我正在使用的脚本是这个： .builder \ .appName("Protob Conversion to Parquet") \://，这样它就可以在

浏览 13提问于2017-02-07得票数 21

回答已采纳

1回答

删除使用numpy.savetxt在pyspark中创建的csv文件

python、numpy、pyspark

使用numpy.savetxt("test.csv",file,delimiter=',')在本地系统中保存文件之后，我将使用os删除该文件。os.remove("test.csv")。我得到一个错误的java.io.FileNotFoundException文件文件:/someDir/

浏览 4提问于2017-04-25得票数 1

回答已采纳

1回答

Spark提交作业在集群模式下失败，但在java中HDFS的copyToLocal本地模式下工作。

java、apache-spark、hdfs、spark-streaming、spark-submit

我正在运行一段Java代码，在Spark submit中使用spark集群模式将文件从HDFS复制到本地。该作业在spark本地模式下运行良好，但在集群模式下运行失败。它抛出一个目标:java.io.exeception /mypath/是一个目录。我不

浏览 0提问于2018-06-17得票数 0

1回答

Apache Spark在哪里对输出进行压缩？

azure、apache-spark、apache-spark-sql、azure-blob-storage

我们有一个在独立集群模式下运行的Spark作业，它从HDFS读取数据，使用我们的自定义压缩器组件进行压缩，并将.zip文件写入Azure blob存储。我们的Spark和HDFS托管在同一数据中心(本地)。例如，Spark作业正在从本地HDFS读取8 GB的文件</e

浏览 13提问于2021-07-23得票数 0

回答已采纳

1回答

使用spraklyr::spark_read_csv将数据读入星火库时出错

r、apache-spark、sparklyr

我在码头集装箱的本地机器上以“独立”模式运行星火。我有一名船长和两名工人，每个工人都在自己的码头集装箱中运行。在每个容器中，路径/opt/spark-data映射到主机上的同一个本地目录。当附加到正在运行的容器时，我可以看到，我试图加载的文件确实存在于3个容器中的每个容器中，都存在于本地(容

浏览 5提问于2022-06-13得票数 0

1回答

如何使用Databricks Community将从Kaggle下载的数据导入DBFS？

databricks、kaggle、databricks-community-edition

我使用Kaggle从Kaggle下载了数据集。数据存储在/databricks/driver目录下。kaggle competitions download -c ncaaw-march-mania-2021问题是:如何在DBFS中使用它们下面是我读取数据的方式，以及当我试图使用pyspark读取csv文件时遇到的错误：

浏览 2提问于2021-08-07得票数 4

回答已采纳

1回答

SparkR作业处理依赖项

r、maven、apache-spark、sparkr

如何处理依赖关系在(交互式) sparkR作业的情况下？但是我需要一些外部包，例如连接到数据库(Mongo，Cassandra)或读取csv文件<

浏览 4提问于2016-04-07得票数 0

回答已采纳

1回答

从dbfs (> 2gb )复制和读取文件的databricks错误

csv、apache-spark、databricks

我有6GB大小的csv。到目前为止，我使用的是下面一行，在使用java之后在dbfs上检查它的大小时，它仍然显示为6GB，所以我假设它是正确的。但是，当我做一个spark.read.csv(samplePath)时，它只读取1800万行，而不是6600万行。我更新了maven dbutil依赖项，并在我调用该行的对象中导入了相同的</em

浏览 1提问于2019-07-19得票数 1

回答已采纳

1回答

使用spark从远程hdfs集群读取文件时出现文件结束异常

scala、apache-spark、hdfs

我刚开始使用HDFS。我正在尝试读取使用spark存储在hadoop集群中的csv文件。每次尝试访问它时，我都会收到以下错误:本地主机之间的文件结束异常我没有在本地设置hadoop，因为我已经可以访问hadoop集群。我可能遗漏了一些配置，但我不知道是哪一个。会很感谢你的帮助。我尝试使用以

浏览 28提问于2019-08-27得票数 0

2回答

Spark:目录中的附加属性

apache-spark、apache-spark-sql

我正在使用亚马逊的EMR spark 1.5.0。我有多个属性文件需要在我的spark-submit程序中使用。我研究了--properties-file选项。但它允许您从单个文件导入属性。我需要从一个结构如下的目录中读取属性：│ ├── query│ ├── schema │ └── schema.json └── schema.

浏览 0提问于2015-10-09得票数 1

2回答

为什么电火花不能读取这个csv文件？

csv、apache-spark、pyspark、databricks

在众多的堆栈溢出类似的问题“如何将csv读取到？”中我找不到这个问题。(见最后类似的但不同的问题清单)。问题中的CSV文件驻留在集群驱动程序的tmp目录中，请注意，这个csv文件是有意不在Databricks DBFS云存储中的。对于导致此问题的用例，使用DBFS将不起作用。Spark可以看到文件</e

浏览 9提问于2022-03-24得票数 1

回答已采纳

13回答

如何在sc.textFile中加载本地文件，而不是HDFS

scala、apache-spark

我在跟踪伟大的$ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bashbash-4.1# ls README.md README.md/bin/

浏览 11提问于2014-12-04得票数 118

回答已采纳

1回答

如何在“本地集群”模式下测试星火程序？

apache-spark、classpath

我有一个Spark程序，它在本地模式下拥有非常完整的测试套件，但是当部署在Spark集群上时，它演示了几个序列化和同步问题，测试套件无法检测到这些问题。.set("spark.executor.classpath", sys.props(&

浏览 1提问于2015-10-09得票数 0

回答已采纳

1回答

如何在Spark独立集群模式下访问HDFS文件？

apache-spark

我正试图访问Spark中的HDFS文件。当我在本地模式下运行星火时，一切都很好。访问HDFS文件。hdfs://localhost:9000/$FILE_PATHSparkSession.master("spark:&

浏览 7提问于2017-08-07得票数 2

回答已采纳

1回答

连接到星盘群集时的序列化问题

scala、apache-spark、apache-spark-sql、cluster-computing、parquet

我有一个用Scala编写的Spark应用程序，它是从Parquet文件中编写和读取的。该应用程序公开了一个HTTP，当它接收到请求时，通过一个长期存在的上下文将工作发送到Spark集群，该上下文贯穿于应用程序的生命周期。然后将结果返回给HTTP客户端。当我使用本地模式(以local[*]为主模式)时，这一切都很好。但是，当我试图连接到Sp

浏览 1提问于2019-07-01得票数 1

回答已采纳

2回答

在spark* submit中将hdfs路径作为环境变量传递*

hadoop、apache-spark、hdfs、hadoop-yarn

我正在尝试使用spark submit在yarn集群上运行我的spark程序，我正在读取一个放在hdfs中的外部配置文件，我正在运行作业- .driver-memory 512m --executor-memory 512m --executor-cores 1 --driver-java-options "-Dext.properties.dir=hdfs://namenode:802

浏览 2提问于2015-04-15得票数 1

3回答

如何使用scala将不同的文件名传递给spark

scala、apache-spark、hadoop

()}csv_file="/usr/usr1/Test.csv" --num-executors 30 \ --

浏览 2提问于2021-09-29得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云