腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
火花:如何递归
读取
目录中所有扩展名
不同
的
文件
?
apache-spark
、
pyspark
、
apache-spark-sql
我
在
HDFS中有这样一个目录结构:├── sub1│ │ └── f1.txt│ └── f2.parquet │ └── f3.jpg └── f4.unknown 是否有一种方法可以跳过一些
文件
(有一些未知
的
扩展名),而使用火花阅读。我可以
读取
目录
中
的
所有
文件
吗?
浏览 0
提问于2021-08-03
得票数 1
回答已采纳
1
回答
如何将PySpark RDD转换为具有未知列
的
Dataframe?
python
、
dataframe
、
pyspark
、
rdd
我是通过从RDD
中
的
文本
文件
加载数据来创建PySpark
的
。现在,我想将这个RDD转换成一个dataframe,但是我不知道RDD中有多少列和列。\file1.
csv
")#注释1:我不知道列
的
原因是因为我试图创建一个通用脚本,该脚本可以从从任意数量
的
列
读取</e
浏览 9
提问于2017-04-07
得票数 2
1
回答
在
_
spark
_metadata
中
什么也没有发现
apache-spark
、
pyspark
、
spark-streaming
我试图从一个特定
的
文件
夹
中
读取
CSV
文件
,并将相同
的
内容写入到本地pc上
不同
位置
的
其他
CSV
文件
中
,以供学习。我可以
读取
文件
并在控制台上显示内容。但是,如果我想将它写入指定输出目录下
的
另一个
CSV
文件
,则会得到一个名为"_
spark
_metadata“
的</
浏览 3
提问于2018-06-09
得票数 0
回答已采纳
1
回答
pyspark一次
读取
多个
csv
文件
apache-spark
、
pyspark
、
hive
我正在使用
SPARK
读取
hdfs
中
的
文件
。有一个场景,我们以
csv
格式从遗留系统
中
获取
文件
块。ID1_FILENAMEA_1.
csv
ID1_FILENAMEA_3.
csv
ID2_FILENAMEA_1.
csv
ID2_FIL
浏览 228
提问于2021-09-27
得票数 1
回答已采纳
1
回答
在
虚拟机
的
ubuntu下使用jupyter
中
的
pyspark时,pandas功能不起作用
apache-spark
、
dataframe
、
ubuntu
、
pyspark
、
jupyter
='notebook' 然后我就可以
在
jupyter中使用pyspark了。=SparkSession.builder.getOrCreate() df =
spark
.read.
csv
("/home/feng/Downloads/
spark
-2.4.0-bin-hadoop2.7函数show()具有
不同
的
结果。对于filter()函数,第二个有错误,但第一个是正确
的
。 我认为这两个示例之间
浏览 23
提问于2019-02-08
得票数 0
回答已采纳
2
回答
如何将两个
csv
文件
导入相同
的
数据
文件
(
文件
的
目录
不同
)
csv
、
apache-spark
、
pyspark
、
apache-spark-sql
我想从两个
csv
文件
中
创建数据格式,但是
文件
夹路径与另一个
文件
不同
。
浏览 2
提问于2018-02-28
得票数 0
回答已采纳
2
回答
如何摄入多个
csv
文件
到一个火花数据?
azure
、
apache-spark
、
pyspark
、
databricks
、
data-ingestion
我正在尝试摄取2个
csv
文件
到一个单一
的
火花数据。然而,这两个数据集
的
模式非常
不同
,当我执行下面的操作时,我只返回第二个
csv
的
模式,就好像第一个不存在一样。我怎么才能解决这个问题?我
的
最后一个目标是统计单词
的
总数。paths = "abfss://lmne.dfs.core.windows.net/csvs/MachineLearning_reddit.
csv
&qu
浏览 12
提问于2022-10-27
得票数 0
1
回答
如何从火花中具有
不同
格式
的
多个
文件
创建一个DataFrame?
apache-spark
、
apache-spark-sql
我知道我可以使用
spark
.read.
csv
()或
spark
.read.json()将
CSV
文件
或JSON
文件
作为一个DataFrame加载,但是如果我
的
源
文件
实际上是
不同
格式
的
,例如,我
的
一些原始数据
在
CSV
文件
中
,而另一些
在
JSON
文件
中
呢?我是否可以创建一个包含来自<e
浏览 0
提问于2021-08-14
得票数 0
回答已采纳
1
回答
Spark
忽略字符串
中
的
逗号
apache-spark
尝试通过
spark
会话加载
csv
,但遇到
在
.i.e
中
包含双引号和逗号
的
字符串问题。"""A"" STAR ACCOUNTING,& TRAINING SOLUTIONS LIMITED""""A"" STAR ACCOUNTING& TRAINING SOLUTIONS LIMITED&q
浏览 19
提问于2018-02-07
得票数 1
回答已采纳
6
回答
如何在一次加载中导入多个
csv
文件
?
apache-spark
、
apache-spark-sql
假设我有一个定义
的
模式,用于
在
文件
夹中加载10个
csv
文件
。是否有一种使用
Spark
自动加载表
的
方法。我知道这可以通过对下面给出
的
每个
文件
使用一个单独
的
数据rather来执行,但是它是否可以通过一个命令来实现自动化,而不是指向一个
文件
,我可以指向一个
文件
夹吗?df = sqlContext.read .format("com.databricks.
s
浏览 11
提问于2016-06-05
得票数 63
回答已采纳
3
回答
火花加载
文件
:路径不存在
apache-spark
、
pyspark
、
emr
、
amazon-emr
、
pyspark-sql
我是星火
的
新手。我试图
在
EMR集群
中
读取
本地
csv
文件
。该
文件
位于: /home/hadoop/。://,这样它就可以
在
本地
读取
该
文件
: df =
spark
.read.
csv
('file:///home/hadoop/observations_temp.
csv</
浏览 13
提问于2017-02-07
得票数 21
回答已采纳
1
回答
scala
的
hdfs连接错误
scala
、
maven
、
hadoop
、
apache-spark
、
hdfs
我是hadoop
的
新手,刚刚开始尝试使用scala和
spark
连接到hdfs,但不知道配置有什么问题。请帮我解决和理解它。Hadoop Version is 2.7.3
Spark
Version is 2.1.1 <dependency> <artifactId
浏览 6
提问于2017-06-14
得票数 0
1
回答
在
Spark
中
读取
不同
的
csv
文件
apache-spark
、
apache-spark-sql
我
在
同一存储位置目录中有两个
csv
文件
。第一个
csv
文件
: id name age2 Hello 21 第二个
csv
文件
: id name age country 3 hi1 20 India 当我读到
spark
的
时候
spark
.read.format("
csv
").option("inferschema","tr
浏览 40
提问于2021-02-12
得票数 0
回答已采纳
2
回答
在
apache中使用模式解析
文件
java
、
scala
、
apache-spark
下面是我
的
spark
/SCALA程序来
读取
我
的
源
文件
。(
CSV
文件
) .format("com.databricks.
spark
.
csv
") .option("header", "true") //reading"); //.<em
浏览 3
提问于2017-04-15
得票数 0
回答已采纳
1
回答
如何使用Apache
spark
java api
读取
csv
文件
并将其保存到多个表
中
。
java
、
apache-spark
我需要
读取
具有多个列
的
csv
文件
,并使用Apache
spark
java api将其保存到多个表
中
。如果有人能帮上忙请帮帮忙。
浏览 4
提问于2021-09-24
得票数 0
1
回答
可以使用相同
的
代码
读取
csv
或parquet
文件
。
apache-spark
、
pyspark
、
apache-spark-sql
是否有人知道是否可以使用相同
的
代码将
csv
或拼花
文件
读入火花中。
spark
.read().schema(schema).load(path);file.
csv
is not a Parquet file.expected magic number at tail [80, 6
浏览 5
提问于2020-08-09
得票数 2
回答已采纳
3
回答
创建数据架构
的
有效方法是什么?
apache-spark
我是个新手,我发现有两种方法可以创建数据框架
的
模式。--+------+-----+ val empData = empFile.map(e => e.split(",")) 创建模式
的
第一种方法是使用但我不知道
在
实际
的
行业项目中推荐哪种方式。有人能告诉我最喜欢
的
方法吗?
浏览 9
提问于2017-06-22
得票数 0
回答已采纳
1
回答
Spark
2.0:绝对URI
中
的
相对路径(火花-仓库)
windows
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正试图从
Spark
1.6.1迁移到
Spark
2.0.0,并且
在
试图将
csv
文件
读取
到SparkSQL时出现了一个奇怪
的
错误。以前,当我从本地磁盘上
读取
一个
文件
时,我会这样做:df = sqlContext.read \
在
最新
浏览 2
提问于2016-07-30
得票数 16
回答已采纳
2
回答
用火花放电
中
的
断线
读取
CSV
python-3.x
、
csv
、
apache-spark
、
pyspark
读
CSV
中
的
断行符,我想用电火花读一个“合法”(它遵循)
CSV
,它在某些行中有断线(CRLF)。下一个代码示例展示了用Notepad++打开它时
的
样子:我尝试用sqlCtx.read.load使用format =‘com.databricks.sck.
csv
.
读取
它,结果数据集在这些特定情况下显示两行而不是一行,我使用
的
是
Spark
2.1.0.2版本。是否有任何
读取
csv
的</
浏览 2
提问于2017-09-14
得票数 6
回答已采纳
1
回答
Spark
csv
读取
器
的
RDD字符串
apache-spark
、
apache-spark-sql
我想用
spark
CSV
阅读器来阅读RDD[String]。我这样做
的
原因是,
在
使用
CSV
阅读器之前,我需要过滤一些记录。val fileRDD: RDD[String] =
spark
.sparkContext.textFile("file") 我需要使用
spark
CSV
阅读器来
读取
fileRDD。我不希望提交该
文件
,因为它会增加HDFS
的
IO。我已经研究了我们
在</
浏览 12
提问于2019-05-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
CSV文件在Python中的几种处理方式
翻译公司在不同文件中翻译出不同语境呢?
程序员高效工作命令行小技巧:读取文件的不同方式
GC调优在Spark应用中的实践
在WSL Linux系统下使用Python读取D盘文件的方法
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券