腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
(
从
csv
文件
)
正在
以
不同
的
格式
加载
数据
帧
dataframe
、
csv
、
pyspark
(我是
pyspark
的
新手)我
正在
尝试将
csv
文件
读取到
pyspark
数据
帧
中,如下所示: from
pyspark
import SparkConf, SparkContext
浏览 8
提问于2021-06-28
得票数 0
回答已采纳
3
回答
如何创建动态
数据
帧
python
、
dataframe
、
apache-spark
、
pyspark
、
azure-databricks
我试图创建一个
数据
框,我之所以以下面的方式指定创建
数据
框,是为了使其成为动态
的
,但表达式是作为字符串传递
的
,并且exec命令无法创建
数据
框并将其赋值给变量。下面是我
的
代码: value ='true' header='header'
浏览 18
提问于2020-02-08
得票数 0
1
回答
如何
从
pyspark
dataframe中更快地保存
csv
文件
?
python
、
apache-spark
、
hadoop
、
pyspark
我目前在本地
的
windows10系统上使用
pyspark
。
pyspark
代码运行得相当快,但将
pyspark
数据
帧
保存为
csv
格式
需要花费大量时间。我
正在
将
pyspark
数据
帧
转换为pandas,然后将其保存到
csv
文件
中。我还尝试使用write方法来保存
csv
文件
。(1).write.format('
浏览 126
提问于2019-08-01
得票数 5
2
回答
Pyspark
将多个
csv
文件
读取到一个
数据
帧
中(或RDD?)
python
、
apache-spark
、
pyspark
、
spark-dataframe
、
jupyter-notebook
我有一个Spark 2.0.2集群,我
正在
通过
Pyspark
通过Jupyter Notebook访问它。我有多个
以
管道分隔
的
txt
文件
(
加载
到HDFS中。我需要使用spark-
csv
将其
加载
到三个独立
的
数据
帧
中,具体取决于
文件
的
名称。我认为我可以采取三种方法--或者我可以使用python
以
某种方式遍历HDFS目录(还没有想出如何做到这一点,<em
浏览 0
提问于2016-12-14
得票数 7
回答已采纳
1
回答
使用
pyspark
如何拒绝
csv
文件
中
的
坏(
格式
错误)记录,并将这些被拒绝
的
记录保存到新
文件
中
apache-spark
、
pyspark
、
pyspark-sql
我
正在
使用
pyspark
将
数据
从
csv
文件
加载
到dataframe中,并且我能够在删除
格式
错误
的
记录
的
同时
加载
数据
,但是我如何才能拒绝
csv
文件
中
的
这些错误(错误
格式
)记录,并将这些被拒绝
的
记录保存在新
文件
中
浏览 11
提问于2019-01-15
得票数 2
回答已采纳
1
回答
如何使用
Pyspark
从
xml
文件
创建子
数据
帧
?
pyspark
我在
pyspark
中有所有这些支持库,并且我能够为parent创建
数据
帧
- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em
浏览 11
提问于2019-03-15
得票数 0
1
回答
如何将spark sql
数据
帧
摘要写入excel
文件
apache-spark
、
pyspark
、
spark-dataframe
我有一个非常大
的
数据
帧
,有8,000列和50000行。我想把它
的
统计信息写到excel
文件
中。我认为我们可以使用describe()方法。而是如何以良好
的
格式
写出优秀
的
作品。谢谢
浏览 4
提问于2017-04-22
得票数 3
回答已采纳
3
回答
Pyspark
EMR笔记本-无法将
文件
保存到EMR环境
pandas
、
pyspark
、
amazon-emr
我在电子病历上
的
Pyspark
Notebook上工作,并使用toPandas()将
pyspark
数据
帧
转换为pandas
数据
帧
。现在,我想使用以下代码将此
数据
帧
保存到本地环境:但我一直收到权限错误: [Errno 13] Permissiondenied: 'test.
csv
浏览 9
提问于2020-06-25
得票数 2
1
回答
将
文件
从
S3存储桶读取到
PySpark
数据
帧
Boto3
apache-spark
、
amazon-s3
、
pyspark
、
boto3
如何将S3存储桶中
的
大量
文件
加载
到单个
PySpark
数据
帧
中?我在一个EMR实例上运行。如果
文件
是本地
的
,我可以使用SparkContext textFile方法。但是当
文件
在S3上时,我如何使用boto3
加载
多个
不同
类型
的
文件
(
CSV
,JSON,...)转换成一个单独
的
数据
帧
进行处理?
浏览 0
提问于2018-05-29
得票数 3
回答已采纳
1
回答
Py4JJavaError:调用o389.
csv
时出错
apache-spark
、
pyspark
、
databricks
我是新来
的
。我
正在
使用databricks运行
pyspark
。我
的
数据
存储在Azure
数据
湖服务中。我
正在
尝试将
csv
文件
从
ADLS读取到
pyspark
数据
帧
。所以我写了下面的代码 import
pyspark
from
pyspark
imp
浏览 27
提问于2020-10-05
得票数 2
2
回答
在Bigquery中使用
pyspark
将
数据
编码为ISO_8859_1
apache-spark
、
pyspark
、
google-cloud-dataproc
我
的
pyspark
数据
帧
中有多语言字符。在将
数据
写入bigquery之后,它向我显示了奇怪
的
字符,因为它
的
默认编码方案(utf-8)。如何使用
pyspark
/ dataproc将Bigquery中
的
编码更改为ISO_8859_1?
浏览 0
提问于2020-05-06
得票数 1
1
回答
如何
从
np.arrays列表(由RDKit生成)中创建Spark
数据
帧
以
馈送给sparks随机森林实现?
python
、
numpy
、
apache-spark
、
rdkit
我
正在
尝试使用RDKit生成分子描述符,然后使用Spark对它们执行机器学习。我已经设法生成了描述符,并且我找到了。这段代码
从
以
svmlight
格式
存储
的
文件
中
加载
数据
帧
,我可以使用dump_svmlight_file创建这样
的
文件
,但写入
文件
感觉并不是很“闪亮”。").getOrCreate() df = spark.read.option("header&q
浏览 0
提问于2021-01-15
得票数 1
1
回答
将变量
加载
到
数据
帧
中
python
、
apache-spark
、
pyspark
、
apache-spark-sql
在
PySpark
中,我尝试
从
字符串变量
加载
数据
帧
。我
的
变量是一个多行文本.. string_data = """ david|23|London john|56|Goa """ 我想将这些
数据
加载
到
PySpark
中
的
数据
帧
中。我想使用
数据
集,
浏览 7
提问于2021-02-02
得票数 0
1
回答
如何将所有的日期
格式
转换为日期列
的
时间戳?
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我使用
的
是
PySpark
版本3.0.1。我
正在
将
csv
文件
读取为具有2个日期列
的
PySpark
数据
帧
。但是,当我尝试打印模式时,两列都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是Dataframe和Dataframe模式。 如何使用
pyspark
将date列中
的
行值转换为时间戳
格式
?我已经尝试了很多东西,但所有的代码都需要当前
的</em
浏览 16
提问于2020-12-30
得票数 2
1
回答
使用
PySpark
有效地将多个小
的
csv
文件
(130,000个,每个列有2列)合并成一个大框架
python
、
csv
、
apache-spark
、
memory
、
pyspark
这是我之前在上发布
的
一个问题
的
又一次跟进其中有一个
文件
列表(约13万份)。在主目录中列出了它们
的
子目录,因此第一个单元可能是A/AAAAA,
文件
位于/data/A/AAA.
csv
。这些
文件
都具有类似的
格式
,第一列称为日期,第二列是一系列都命名为值
的
列。因此,首先,值列名需要重命名为每个
csv
文件
中
的
浏览 4
提问于2020-02-18
得票数 0
回答已采纳
1
回答
在df.toPandas().to_
csv
('mycsv.
csv
')之后,
数据
在重新读取时会被混淆
python
、
pyspark
、
apache-spark-sql
我有一张名叫result_25
的
桌子。我使用此代码成功地将
数据
导出到磁盘上
的
csv
。result_25.toPandas().to_
csv
('mycsv.
csv
')rr = spark.read.
csv
('mycsv.
csv
',inferSchema=True, header=True) 我查了
数据
,看上去很好。但是,当我
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
如何在palantir foundry中通过导入
数据
帧
来编写pytest函数
pytest
、
palantir-foundry
、
foundry-code-repositories
我可以通过手动提供列名和值来创建
数据
框,并将其传递给生产代码
以
检查palantir foundry代码库中所有转换后
的
字段值,从而编写pytest函数。我希望将所有必需
的
数据
存储在dataset中,并将该
数据
集导入pytest函数以获取所有所需
的
值,然后传递给生产代码
以
检查所有转换后
的
字段值,而不是手动传递列名及其各自
的
值。是否可以接受
数据
集作为planatir代码库中
的
测试函数<
浏览 4
提问于2020-11-05
得票数 0
1
回答
如何使用spark toLocalIterator
从
集群中写入本地
文件
系统中
的
单个
文件
dataframe
、
apache-spark
、
pyspark
我有一个
pyspark
作业,它将结果
数据
帧
写入本地
文件
系统中。be like avro, json,
csv
, etc df.coalesce.write.format(file_format).save('file:///
pyspark
_data/output') 但我发现了很多内存问题(OOM),而且也需要更长
的
时间。因此,我希望
以
yarn身份运行此作业,
以
client身
浏览 68
提问于2020-08-26
得票数 0
2
回答
使用
pyspark
从
csv
文件
上传自定义架构
python-3.x
、
apache-spark
、
pyspark
、
apache-spark-sql
、
schema
我有一个关于使用
pyspark
将模式
加载
到cdsw上
的
问题。我有一个使用
csv
文件
创建
的
数据
帧
大多数变量
的
数据
类型都读错了我知道模式应该是什么样子
的
。 有没有办法
浏览 0
提问于2021-04-21
得票数 0
2
回答
如何在
PySpark
中保存当前日期和时间
的
文件
名?
azure
、
file
、
apache-spark
、
pyspark
、
azure-synapse
我在
PySpark
中有一个
数据
帧
,并且希望用当前时间戳作为
文件
名将
文件
保存为
CSV
。我
正在
执行这个在Azure Synapse笔记本,并希望每天运行笔记本。我将
CSV
文件
保存在
浏览 22
提问于2022-06-29
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
如何在Weka中加载CSV机器学习数据
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券