腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
集群
模式
下
使用
Java
读取
Spark
中保
存在
本地
的
CSV
文件
java
、
csv
、
apache-spark
、
hdfs
、
cluster-mode
我正在尝试
读取
保
存在
UNIX
本地
文件
系统中
的
CSV
文件
,但在
集群
模式
下
运行时找不到该
CSV
文件
。
在
本地
模式
下
,它可以
读取
HDFS和file:///
文件
。但是,
在
集群
模式
下
,
浏览 91
提问于2021-10-14
得票数 0
1
回答
星星之交向驱动程序发送错误
的
java
路径。
apache-spark
、
spark-submit
我正在向
本地
运行
的
容器式星火
集群
提交一个作业。火花版本3.2.1。我用
的
是比纳米
的
火花筒图像。 这项工作是用scala编写
的
。我创造了一个“胖罐子”。现在,当我以客户端
模式
(--deploy-mode client)将jar提交到
集群
(从
本地
容器到容器外部)时,
在
本地
文件
系统中提供jar
的
路径。工作成功完成。"/Library/<em
浏览 1
提问于2022-09-08
得票数 1
1
回答
如何在Oozie
spark
scala作业中将
文件
从
本地
复制到HDFS目录?
scala
、
apache-spark
、
hadoop
、
oozie
我正在尝试
使用
scala将一些
文件
从
本地
路径复制到hdfs,并
使用
oozie运行它。作业失败,因为它无法从
本地
路径
读取
文件
。有没有办法
在
oozie中
读取
本地
文件
?
浏览 0
提问于2020-03-31
得票数 0
3
回答
火花加载
文件
:路径不
存在
apache-spark
、
pyspark
、
emr
、
amazon-emr
、
pyspark-sql
我是星火
的
新手。我试图
在
EMR
集群
中
读取
本地
csv
文件
。该
文件
位于: /home/hadoop/。我正在
使用
的
脚本是这个: .builder \ .appName("Protob Conversion to Parquet") \://,这样它就可以
在
浏览 13
提问于2017-02-07
得票数 21
回答已采纳
1
回答
删除
使用
numpy.savetxt
在
pyspark中创建
的
csv
文件
python
、
numpy
、
pyspark
使用
numpy.savetxt("test.
csv
",file,delimiter=',')
在
本地
系统
中保
存
文件
之后,我将
使用
os删除该
文件
。os.remove("test.
csv
")。我得到一个错误
的
java
.io.FileNotFoundException
文件
文件
:/someDir/
浏览 4
提问于2017-04-25
得票数 1
回答已采纳
1
回答
Spark
提交作业
在
集群
模式
下
失败,但在
java
中HDFS
的
copyToLocal
本地
模式
下工作。
java
、
apache-spark
、
hdfs
、
spark-streaming
、
spark-submit
我正在运行一段
Java
代码,
在
Spark
submit中
使用
spark
集群
模式
将
文件
从HDFS复制到
本地
。该作业
在
spark
本地
模式
下
运行良好,但在
集群
模式
下
运行失败。它抛出一个目标:
java
.io.exeception /mypath/是一个目录。 我不
浏览 0
提问于2018-06-17
得票数 0
1
回答
Apache
Spark
在哪里对输出进行压缩?
azure
、
apache-spark
、
apache-spark-sql
、
azure-blob-storage
我们有一个
在
独立
集群
模式
下
运行
的
Spark
作业,它从HDFS
读取
数据,
使用
我们
的
自定义压缩器组件进行压缩,并将.zip
文件
写入Azure blob存储。我们
的
Spark
和HDFS托管
在
同一数据中心(
本地
)。例如,
Spark
作业正在从
本地
HDFS
读取
8 GB
的
文件</e
浏览 13
提问于2021-07-23
得票数 0
回答已采纳
1
回答
使用
spraklyr::
spark
_read_
csv
将数据读入星火库时出错
r
、
apache-spark
、
sparklyr
我
在
码头集装箱
的
本地
机器上以“独立”
模式
运行星火。我有一名船长和两名工人,每个工人都在自己
的
码头集装箱中运行。
在
每个容器中,路径/opt/
spark
-data映射到主机上
的
同一个
本地
目录。当附加到正在运行
的
容器时,我可以看到,我试图加载
的
文件
确实
存在
于3个容器中
的
每个容器中,都
存在
于
本地
(容
浏览 5
提问于2022-06-13
得票数 0
1
回答
如何
使用
Databricks Community将从Kaggle下载
的
数据导入DBFS?
databricks
、
kaggle
、
databricks-community-edition
我
使用
Kaggle从Kaggle下载了数据集。数据存储
在
/databricks/driver目录下。kaggle competitions download -c ncaaw-march-mania-2021问题是:如何在DBFS中
使用
它们下面是我
读取
数据
的
方式,以及当我试图
使用
pyspark
读取
csv
文件
时遇到
的
错误:
浏览 2
提问于2021-08-07
得票数 4
回答已采纳
1
回答
SparkR作业处理依赖项
r
、
maven
、
apache-spark
、
sparkr
如何处理依赖关系
在
(交互式) sparkR作业
的
情况
下
?但是我需要一些外部包,例如连接到数据库(Mongo,Cassandra)或
读取
csv
文件<
浏览 4
提问于2016-04-07
得票数 0
回答已采纳
1
回答
从dbfs (> 2gb )复制和
读取
文件
的
databricks错误
csv
、
apache-spark
、
databricks
我有6GB大小
的
csv
。到目前为止,我
使用
的
是下面一行,
在
使用
java
之后
在
dbfs上检查它
的
大小时,它仍然显示为6GB,所以我假设它是正确
的
。但是,当我做一个
spark
.read.
csv
(samplePath)时,它只
读取
1800万行,而不是6600万行。我更新了maven dbutil依赖项,并在我调用该行
的
对象中导入了相同
的</em
浏览 1
提问于2019-07-19
得票数 1
回答已采纳
1
回答
使用
spark
从远程hdfs
集群
读取
文件
时出现
文件
结束异常
scala
、
apache-spark
、
hdfs
我刚开始
使用
HDFS。我正在尝试
读取
使用
spark
存储
在
hadoop
集群
中
的
csv
文件
。每次尝试访问它时,我都会收到以下错误:
本地
主机之间
的
文件
结束异常 我没有
在
本地
设置hadoop,因为我已经可以访问hadoop
集群
。 我可能遗漏了一些配置,但我不知道是哪一个。会很感谢你
的
帮助。我尝试
使用
以
浏览 28
提问于2019-08-27
得票数 0
2
回答
Spark
:目录中
的
附加属性
apache-spark
、
apache-spark-sql
我正在
使用
亚马逊
的
EMR
spark
1.5.0。我有多个属性
文件
需要在我
的
spark
-submit程序中
使用
。我研究了--properties-file选项。但它允许您从单个
文件
导入属性。我需要从一个结构如下
的
目录中
读取
属性:│ ├── query│ ├── schema │ └── schema.json └── schema.
浏览 0
提问于2015-10-09
得票数 1
2
回答
为什么电火花不能
读取
这个
csv
文件
?
csv
、
apache-spark
、
pyspark
、
databricks
在
众多
的
堆栈溢出类似的问题“如何将
csv
读取
到?”中我找不到这个问题。(见最后类似的但不同
的
问题清单)。问题中
的
CSV
文件
驻留在
集群
驱动程序
的
tmp目录中,请注意,这个
csv
文件
是有意不在Databricks DBFS云存储中
的
。对于导致此问题
的
用例,
使用
DBFS将不起作用。
Spark
可以看到
文件</e
浏览 9
提问于2022-03-24
得票数 1
回答已采纳
13
回答
如何在sc.textFile中加载
本地
文件
,而不是HDFS
scala
、
apache-spark
我在跟踪伟大
的
$ sudo docker run -i -t -h sandbox sequenceiq/
spark
:1.1.0 /etc/bootstrap.sh -bashbash-4.1# ls README.md README.md/bin/
浏览 11
提问于2014-12-04
得票数 118
回答已采纳
1
回答
如何在“
本地
集群
”
模式
下
测试星火程序?
apache-spark
、
classpath
我有一个
Spark
程序,它在
本地
模式
下
拥有非常完整
的
测试套件,但是当部署
在
Spark
集群
上时,它演示了几个序列化和同步问题,测试套件无法检测到这些问题。.set("
spark
.executor.classpath", sys.props(&
浏览 1
提问于2015-10-09
得票数 0
回答已采纳
1
回答
如何在
Spark
独立
集群
模式
下
访问HDFS
文件
?
apache-spark
我正试图访问
Spark
中
的
HDFS
文件
。当我
在
本地
模式
下
运行星火时,一切都很好。访问HDFS
文件
。hdfs://localhost:9000/$FILE_PATHSparkSession.master("
spark
:&
浏览 7
提问于2017-08-07
得票数 2
回答已采纳
1
回答
连接到星盘群集时
的
序列化问题
scala
、
apache-spark
、
apache-spark-sql
、
cluster-computing
、
parquet
我有一个用Scala编写
的
Spark
应用程序,它是从Parquet
文件
中编写和
读取
的
。该应用程序公开了一个HTTP,当它接收到请求时,通过一个长期
存在
的
上下文将工作发送到
Spark
集群
,该上下文贯穿于应用程序
的
生命周期。然后将结果返回给HTTP客户端。当我
使用
本地
模式
(以local[*]为主
模式
)时,这一切都很好。但是,当我试图连接到
Sp
浏览 1
提问于2019-07-01
得票数 1
回答已采纳
2
回答
在
spark
submit中将hdfs路径作为环境变量传递
hadoop
、
apache-spark
、
hdfs
、
hadoop-yarn
我正在尝试
使用
spark
submit
在
yarn
集群
上运行我
的
spark
程序,我正在
读取
一个放在hdfs中
的
外部配置
文件
,我正在运行作业- .driver-memory 512m --executor-memory 512m --executor-cores 1 --driver-
java
-options "-Dext.properties.dir=hdfs://namenode:802
浏览 2
提问于2015-04-15
得票数 1
3
回答
如何
使用
scala将不同
的
文件
名传递给
spark
scala
、
apache-spark
、
hadoop
()}
csv
_file="/usr/usr1/Test.
csv
" --num-executors 30 \ --
浏览 2
提问于2021-09-29
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
英雄惜英雄-当Spark遇上Zeppelin之实战案例
灵活强大:iObjects Java for Spark模块扩展开发
Spark-2
机器学习实践:如何将Spark与Python结合?
Spark机器学习入门实例:大数据集二分类
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券