腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
一次
读取
多个
csv
文件
apache-spark
、
pyspark
、
hive
我正在使用SPARK
读取
hdfs中的
文件
。有一个场景,我们以
csv
格式从遗留系统中获取
文件
块。ID1_FILENAMEA_1.
csv
ID1_FILENAMEA_3.
csv
ID2_FILENAMEA_1.
csv
ID2_FILENAMEA_3.
csv
此
文件
使用
浏览 228
提问于2021-09-27
得票数 1
回答已采纳
2
回答
Pyspark
读取
csv
python
、
apache-spark
、
pyspark
新的
pyspark
,并希望
读取
csv
文件
到数据帧。看起来不能读。有什么帮助吗?from
pyspark
.sql import SQLContextfrom
pyspark
.sql import Row rdd = sc.textFile('data.
csv
').map(lambda line: line.spl
浏览 3
提问于2018-05-14
得票数 1
回答已采纳
1
回答
能够读进RDD,但不能读到火花数据格式
azure
、
pyspark
回溯(最近
一次
调用):产出如下: %%
pyspark
lines = sc.textFi
浏览 3
提问于2022-01-25
得票数 0
1
回答
AWS作业create_dynamic_frame_from_options()打开特定的
文件
?
amazon-web-services
、
apache-spark
、
pyspark
、
aws-glue
如果使用create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,从Glue爬虫中创建,这实际上是命名特定的输入
文件
。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入
文件
)。我尝试过使用create_dynamic_frame_from_options(),但“路径”连接选项显然不允许我命名该
文件
。有办法这样做吗?
浏览 1
提问于2020-07-15
得票数 1
1
回答
如何使用spark (python)
读取
zip
文件
中
CSV
文件
的内容
python
、
hadoop
、
apache-spark
、
zip
、
pyspark
我有
多个
压缩
文件
,包含两种类型的
文件
(A.
csv
和B.
csv
)/data/feb.zip -->包含A.
csv
& B.
csv
我想使用
pyspark
读取
所有压缩
文件
中的所有A.
csv
文件
的内容。textFile = sc.
浏览 1
提问于2016-05-06
得票数 11
2
回答
如何使用spark (python)
读取
zip
文件
中
CSV
文件
的内容
python
、
apache-hadoop
、
apache-spark
我有
多个
zip
文件
,包含两种类型的
文件
(A.
csv
& B.
csv
)我想使用
pyspark
读取
所有压缩
文件
中所有A.
csv
文件
的内容。text
浏览 0
提问于2016-05-05
得票数 3
1
回答
Pyspark
将输出保存为多种格式
python
、
pyspark
、
save
寻找保存
pyspark
输出到拼花和
csv
在一起。现在我有一条拼花的线路:有没有办法把它一起保存到
多个
文件
中?或者我必须
读取
输出
文件
并将其保存为
csv
? 谢谢!
浏览 11
提问于2020-11-12
得票数 0
回答已采纳
1
回答
使用
pyspark
读取
多个
csv
文件
pyspark
我需要
一次
读取
多个
csv
文件
。现在,这些
csv
文件
可以按任意顺序具有可变数量的列。我们要求只从
csv
文件
中
读取
特定的列。我们该怎么做呢?我尝试过定义自定义模式,但是在列中得到了不同的数据。对于ex:ID、名称、地址如何仅选择Id和地址列。因为如果我说select ( ID,Address),那么它会在Address列中给出ID和姓名数据。
浏览 2
提问于2020-05-09
得票数 0
1
回答
如何在
读取
pyspark
dataframe中的
csv
文件
时
读取
选定的列?
csv
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
在
读取
csv
文件
时,我正在尝试
读取
选定的列。假设
csv
文件
有10列,但我只想
读取
5列。有没有办法做到这一点?
Pyspark
: ?
浏览 6
提问于2021-03-04
得票数 1
3
回答
PySpark
:如何将逗号指定为十进制
csv
、
pyspark
、
number-formatting
我正在使用
PySpark
并加载一个
csv
文件
。我有一个带有欧洲格式数字的列,这意味着逗号代替了点,反之亦然。 例如:我使用2.416,67而不是2,416.67。选项中指定pd.read_
csv
()来
读取
欧洲格式,可以轻松地
读取
这样的
文件
。我不知道如何在
PySpark
中做到这一点。("filepath/revenues.
csv
",sep=';',encoding='UTF-8
浏览 0
提问于2018-10-08
得票数 13
回答已采纳
1
回答
使用
Pyspark
从s3存储桶中
读取
最后一个
csv
文件
python
、
amazon-web-services
、
csv
、
amazon-s3
、
pyspark
因此,我有一个s3存储桶(数据),其中有一个名为(First)的
文件
夹,其中包含
多个
CSV
文件
,但我不知道该
文件
的名称,现在我想将该
文件
夹中的最新
文件
读取
到
pyspark
dataframe中。
浏览 15
提问于2021-09-16
得票数 0
6
回答
如何在Apache预构建版本中添加任何新的库(如Spark
csv
)
python
、
apache-spark
、
apache-spark-sql
我已经构建了,并能够使用下面的命令使用同样的
pyspark
错误获取Traceback (most recent call last): File "<stdin>",line 1, in &l
浏览 13
提问于2015-06-10
得票数 26
回答已采纳
1
回答
如何从synapse数据库表中
读取
表
pyspark
、
apache-spark-sql
、
azure-synapse
但我不明白如何使用
Pyspark
来
读取
这些表。这是我的链接服务数据结构。
浏览 5
提问于2022-08-26
得票数 0
5
回答
用电火花
读取
csv
python-3.x
、
csv
、
apache-spark
、
hive
、
pyspark
我正试着用电火花
读取
csv
文件
。我提到了,和更多。我试着用两种方式来解读:from
pyspark
.sql import SparkSessionfrom
pyspark
.confimport SparkConfdf = spark.read.
csv
('D:/Users/path/<em
浏览 6
提问于2018-01-03
得票数 1
1
回答
Py4JJavaError:调用o389.
csv
时出错
apache-spark
、
pyspark
、
databricks
我正在使用databricks运行
pyspark
。我的数据存储在Azure数据湖服务中。我正在尝试将
csv
文件
从ADLS
读取
到
pyspark
数据帧。所以我写了下面的代码 import
pyspark
from
pyspark
import SparkFiles df = sqlContext.read.
csv
(SparkFiles.get("dbfs:my
浏览 27
提问于2020-10-05
得票数 2
1
回答
pyspark
不支持大于127的分隔符
pyspark
我在AWS EMR上使用
pyspark
,其中我使用Spark 2.4.3
读取
CSV
文件
,并将分隔符作为命令行参数传递。如果self.delimiter设置为任何小于127
浏览 7
提问于2020-11-17
得票数 1
2
回答
如何使用
PySpark
将这些
多个
csv
文件
(大约130,000个)有效地合并为一个大型数据集?
python
、
apache-spark
、
memory
、
pyspark
、
bigdata
我之前发布了这个问题,并得到了一些使用
PySpark
的建议。 下面的压缩
文件
()包含一个名为data的
文件
夹,其中包含大约130,000个
csv
文件
。我想把它们合并到一个单独的数据帧中。如果您打开任何
csv
文件
,您可以看到它们都具有相同的格式,第一列用于日期,第二列用于数据系列。所以现在我改用
PySpark
,但是我不知道连接所有
文件
的最有效的方法是什么,对于pandas数据帧,我会像这样连接单个帧的列表,因为我想让它们在日期上合并:
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
1
回答
从本地计算机
读取
数据时出现(
PySpark
)问题
apache-spark
、
pyspark
当我使用
pyspark
从我的计算机
读取
数据(DAT
文件
-4 Gb)时,一切正常,但当我使用
pyspark
从本地计算机(我公司的其他计算机通过LAN连接)
读取
数据时,出现以下错误: '‘Py4JJavaError:调用o304.
csv
时出错。用法: java.io.IOException:方案没有FileSystem : null '‘ Error picture 如果我使用pandas.read_
csv
从本地计算机
读取
文件<
浏览 26
提问于2020-10-28
得票数 0
1
回答
如何在spark sql中从不同路径
读取
多个
csv
文件
python
、
sql
、
csv
、
apache-spark
、
pyspark
我正在尝试
读取
不同
文件
夹中的
多个
csv
文件
from
pyspark
.sql import * .builder \df = spark.read.option(
浏览 85
提问于2021-08-13
得票数 0
回答已采纳
1
回答
如何在木星笔记本中正确设置SparkContext的配置?
python
、
apache-spark
、
pyspark
、
jupyter-notebook
我写了这段代码:from
pyspark
.streaming import StreamingContextimport sys----> 2 sc = SparkCont
浏览 1
提问于2020-12-21
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用PHP读取Excel、CSV文件
使用python 打开并读取 csv 文件
Python读取csv文件错误解决方法
python如何读取CSV文件中的特定行数据
selenim自动化数据驱动测试实例读取csv文件实现批量登录账号
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券