腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
如何
在
读取
pyspark
时
读取
没有
头部
的
csv
,
并
使用
名称
命名
它们
?
dataframe
、
pyspark
100000,20160216,1896542100000,20160216,77273616 100000,20160507,1303015 我想
读取
第一行
没有
列名
的
csv
文件。
如何
同时
读取
并
命名
具有我指定
名称
的
列?现在,我只是用我指定
的
名称
重
命名
了原始列,如下所示: df = spark.read.
c
浏览 177
提问于2017-06-15
得票数 26
回答已采纳
1
回答
在
pyspark
中
读取
TSV文件
python
、
file
、
apache-spark
、
pyspark
什么是最好
的
方式
读取
.tsv文件
的
头部
在
pyspark
和存储它在一个火花数据帧。谢谢。
浏览 25
提问于2020-05-14
得票数 2
回答已采纳
1
回答
从本地计算机
读取
数据
时
出现(
PySpark
)问题
apache-spark
、
pyspark
当我
使用
pyspark
从我
的
计算机
读取
数据(DAT文件-4 Gb)
时
,一切正常,但当我
使用
pyspark
从本地计算机(我公司
的
其他计算机通过LAN连接)
读取
数据
时
,出现以下错误: '‘Py4JJavaError:调用o304.
csv
时
出错。用法: java.io.IOException:方案
没有
FileSystem : null '‘ Erro
浏览 26
提问于2020-10-28
得票数 0
1
回答
pyspark
合并覆盖为一个具有固定
名称
的
文件
apache-spark
、
pyspark
、
amazon-emr
我们有一个自动化管道
的
需求。我
的
需求是
使用
具有固定
名称
的
pyspark
生成/覆盖一个文件 但是,我现在
的
命令是- final_df.coalesce(1).write.option("header", "true").
csv
("s3://finalop/" , mode="overwrite") 这确保目录(finalop)是相同<e
浏览 25
提问于2020-10-14
得票数 0
回答已采纳
1
回答
如何
在
读取
pyspark
dataframe中
的
csv
文件
时
读取
选定
的
列?
csv
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
在
读取
csv
文件
时
,我正在尝试
读取
选定
的
列。假设
csv
文件有10列,但我只想
读取
5列。有
没有
办法做到这一点?
Pyspark
: ?
浏览 6
提问于2021-03-04
得票数 1
3
回答
PySpark
:
如何
将逗号指定为十进制
csv
、
pyspark
、
number-formatting
我正在
使用
PySpark
并
加载一个
csv
文件。我有一个带有欧洲格式数字
的
列,这意味着逗号代替了点,反之亦然。 例如:我
使用
2.416,67而不是2,416.67。选项中指定pd.read_
csv
()来
读取
欧洲格式,可以轻松地
读取
这样
的
文件。我不知道
如何
在
PySpark
中做到这一点。("filepath/revenues.
csv
",se
浏览 0
提问于2018-10-08
得票数 13
回答已采纳
1
回答
如何
在
PySpark
中
读取
DBF文件
python
、
apache-spark
、
pyspark
、
redis
、
dbf
我需要在.DBF中
读取
和处理
PySpark
文件,但是我
没有
得到任何库,我怎么能像
读取
CSV
、JSON、Parquet或其他文件那样
读取
它。from
pysp
浏览 9
提问于2022-01-29
得票数 0
1
回答
我
的
程序
的
map/zipmap部分会占用太多内存吗?
map
、
clojure
、
sequence
、
lazy-evaluation
我
的
问题是,如果.
csv
文件足够大,那么map/zipmap步骤(如下所示)是否存在消耗太多内存
的
风险?(defn fetch-
csv
-data "This function accepts a
csv
file name, and r
浏览 0
提问于2012-08-10
得票数 2
回答已采纳
1
回答
是否有可能用火花放电中
的
UDF进行基于文件
的
处理?
python
、
apache-spark
、
pyspark
、
azure-blob-storage
我定义了一个UDF,它
使用
dataframe执行以下操作,其中列包含azure存储中
的
zip文件
的
位置(我测试了不带火花
的
UDF,并得到了解决): 从blob下载定义
的
文件,并将其放在Excutor有了这个UDF,我体验到了同样
的
速度,就好像我只是
在
python中循环文件一样。那么,是否有可能在火花中完成这样
的
任务呢?我想要
使用
火花并行下载和解压缩,以加快它。我通过ssh连接到执行器和驱动程序(它是一个测试集群,因此它只有一个),
浏览 1
提问于2020-07-31
得票数 0
1
回答
pyspark
不支持大于127
的
分隔符
pyspark
我
在
AWS EMR上
使用
pyspark
,其中我
使用
Spark 2.4.3
读取
CSV
文件,并将分隔符作为命令行参数传递。如果self.d
浏览 7
提问于2020-11-17
得票数 1
2
回答
在
Pandas中将多个
csv
读取
到单独
的
数据帧中
python
、
pandas
、
dataframe
我有一个很长
的
csv
文件列表,我想以数据帧
的
形式
读取
这些文件,并按文件名
命名
它们
。例如,我想读入文件status.
csv
,并为其数据帧指定
名称
status。有
没有
办法可以
使用
Pandas有效地做到这一点? 查看this,我仍然需要在循环中写出每个
csv
的
名称
。我想避免这种情况。 看看this,它允许我将多个
csv
读取
到一个数据帧
浏览 38
提问于2019-03-20
得票数 1
回答已采纳
1
回答
PySpark
使用
自定义记录分隔符
读取
CSV
文件
python
、
python-3.x
、
pyspark
、
apache-spark-sql
在
pyspark
中
读取
csv
文件
时
,有
没有
办法
使用
自定义记录分隔符?
在
我
的
文件中,记录用**分隔,而不是换行符。
在
将
csv
读入
PySpark
数据帧
时
,有
没有
办法
使用
这个自定义
的
行/记录分隔符?
浏览 15
提问于2021-05-26
得票数 0
1
回答
使用
for list指定变量名
python
、
pandas
这是一个简单
的
问题。我想遍历两个列表,第一个列表
命名
变量,第二个列表
读取
csv
。我希望根据列表遍历
的
名称
将
csv
赋值给变量。以下是我编写
的
代码示例:for i i
浏览 15
提问于2019-11-11
得票数 1
1
回答
如何
使用
Databricks Community将从Kaggle下载
的
数据导入DBFS?
databricks
、
kaggle
、
databricks-community-edition
我
使用
Kaggle从Kaggle下载了数据集。数据存储
在
/databricks/driver目录下。my_key%sh unzip ncaaw-march-mania-2021.zip 问题是:
如何
在DBFS中
使用
它们
?下面是我
读取
数据
的
方式,以及当我试图
使用
pyspark
读取
c
浏览 2
提问于2021-08-07
得票数 4
回答已采纳
2
回答
从Azure存储资源管理器
读取
databricks中
的
zip文件
pyspark
、
azure-storage
、
unzip
、
zip
、
azure-databricks
我想
读取
具有
csv
文件
的
zip文件。我尝试过许多方法,但
没有
成功。
在
我
的
例子中,我应该
读取
文件
的
路径
在
中。例如,当我必须在databricks中
读取
csv
时
,我
使用
以下代码: dfDemandaBilletesCmbinad = spark.read.
csv
("/mnt/data/myCSVfile.<em
浏览 4
提问于2021-05-04
得票数 0
3
回答
如何
避免熊猫
在
使用
CSV
文件
时
在数据中添加索引
python
、
pandas
、
dataframe
、
indexing
我
使用
dataframes和
CSV
文件来操作数据。大多数情况下,我
的
数据文件,或者我
使用
的
API提供
的
数据,都
没有
索引。如果
它们
有索引,特别是在编写和
读取
CSV
文件
时
,我只需
使用
列
的
名称
"unnamed:0“来删除
它们
。 但是这一次,to_
CSV
在
我
的
CSV
浏览 3
提问于2020-01-22
得票数 0
回答已采纳
1
回答
PySpark
拼花数据类型
python-3.x
、
pyspark
我
使用
PySpark
读取
一个相对较大
的
csv
文件(~10 to ):所有列都有数据类型string。例如,
在
更改column_a
的
数据类型后,我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中,
并
读取
这个拼图文件,我会注意到所有的列都有数据类型strin
浏览 4
提问于2018-06-01
得票数 0
0
回答
读取
pyspark
中
的
JSON文件以创建python中
的
schema struct类型
python
、
json
、
azure
、
pyspark
、
azure-databricks
我正在尝试
读取
一个不是我创建
的
JSON文件,该文件具有我可以
读取
的
CSV
的
模式、
名称
和类型信息,但在
CSV
中
没有
标头。我想要
的
是可以用来
读取
CSV
文件
的
Struct Schema。我还不能获得定义数组
的
数据帧,这样我就可以循环
并
创建结构元素。如果我尝试
使用
普通
的
python3
读取</e
浏览 7
提问于2021-10-25
得票数 0
2
回答
如何
从给定文件夹
读取
多个
csv
文件
时
获得
命名
列表?
r
、
list
、
csv
假设我在给定
的
文件夹中有几个
csv
文件,当我
读取
它们
时
,我可以有一个未
命名
的
列表,其中每个list元素都有默认
的
数字索引。我怎样才能把
它们
作为名字列表来阅读呢?下面是我所做
的
代码:
浏览 0
提问于2016-09-18
得票数 2
回答已采纳
2
回答
使用
循环或lapply
读取
和
命名
文件
r
、
for-loop
、
import
、
lapply
我目前有诸如"ALTable.
csv
“、"DETable.
csv
”等标题
的
文件。 我想将这些文件
读取
到程序中,并将内容保存在一个
命名
的
数据框中。然后,我想继续对这些数据帧执行操作,
并
使用
它们
来构造由旧数据帧填充
的
计算填充
的
新数据帧。我能够找到
如何
告诉R创建相关文件
的
列表以及
如何
加载
它们
,但我不知道
如何
浏览 6
提问于2019-01-28
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
MIX恢复小助手2.5详细说明
一文读懂 PySpark 数据框
Python读取JSON键值对并导出为.csv表格
机器学习实践:如何将Spark与Python结合?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券