腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2493)
视频
沙龙
1
回答
如
何在
尝试
将
Py4j
JavaError
写入
CSV
文件
时
解析
PySpark
DataFrame
?
、
fifa_df.write.mode("overwrite").
csv
("C:\\Users\\003608\\Desktop\\
pyspark
_info\\
csv
_files")或fifa_df.write.mode("overwrite").
csv
("C:\\Users\\003608\\Desktop\\
pyspark
_info\\
csv
_test.
csv
") 两者都试过了 我得到的错
浏览 14
提问于2020-10-28
得票数 0
1
回答
Azure Blob存储错误无法
解析
spark中的日期
、
、
我正在
尝试
使用python
将
azure datalake gen2中分配的
文件
读取到spark
dataframe
中。代码是from
pyspark
.sql import SparkSession key =# write
csv
该
文件
已被读取且
写入
良好,但我
浏览 2
提问于2021-09-13
得票数 0
1
回答
如何
将
大型spark数据帧(5M行)/
csv
文件
拆分成每个数据帧具有相同标题的区块(优化方案)
、
、
、
、
我有一个很大的
csv
文件
(5 5GB),其中包含大约50M行。我想让更小的块
csv
(~1M行)从原始的
csv
文件
。我
尝试
了下面的方法来分块,但花了很多时间来执行分块:data = dask.
dataframe
.read_
csv
('test.
csv
') data.t
浏览 1
提问于2020-09-02
得票数 0
1
回答
如何
将
具有大量列计数的
csv
文件
导入ApacheSpark2.0
、
、
、
、
我遇到了
将
多个带有over的小型
csv
文件
导入ApacheSpark2.0
时
遇到的问题,这些
文件
作为Google集群运行。有少数字符串列,但真正感兴趣的只有1作为类标签。当我在
pyspark
中运行以下代码
时
csvdata = spark.read.
csv
("gs://[bucket]/
csv
/*.
csv
", header=True,mode="D
浏览 4
提问于2016-08-27
得票数 6
回答已采纳
1
回答
PySpark
加载
CSV
AttributeError:'RDD‘对象没有属性'_get_object_id’
、
、
、
我正在
尝试
将
CSV
文件
加载到星火
DataFrame
中。line: (line.split(';')[0], line.split(';')[1])).collect() File "/usr/hdp/2.5.6.0-40/spark/python/lib/
pyspark
.zip/
pyspark
/context.py", l
浏览 6
提问于2017-08-11
得票数 1
回答已采纳
1
回答
如
何在
pyspark
中将重复列名的数据帧
写入
csv
文件
、
、
、
如
何在
join操作后
将
具有相同列名的数据帧
写入
csv
文件
。目前,我正在使用以下代码。')将在“/home/user/output”中
写入
数据帧"dfFinal“.But它在数据帧包含重复列的情况下不起作用。30| 4| 70|上述
dataframe
当
写入
<em
浏览 0
提问于2018-10-03
得票数 6
1
回答
pyspark
在所有执行器上均匀地拆分负载
、
、
、
、
我有一个5节点集群,我正在使用
pyspark
将
一个100k的
csv
文件
加载到一个
dataframe
中,并执行一些etl操作,并将输出
写入
到一个parquet
文件
中。当我加载数据帧
时
,如
何在
每个执行器处理20k记录的所有执行器0上均匀地划分数据集。
浏览 2
提问于2017-10-06
得票数 1
1
回答
Databricks -即使指定为
CSV
文件
,也可以
将
CSV
写入
Parquet
文件
夹
、
、
但是,我有一位同事想要
CSV
格式的数据,这样他们就可以
将
这些信息输入到本地SQL数据库中。day}.parquet"这一切都很好,就在下面,我编写了如下代码: df.write.format("
csv
").mode("overwrite").save(f"/mnt/successfactors-work/{dimname}/
浏览 5
提问于2022-07-07
得票数 0
回答已采纳
1
回答
如
何在
pyspark
中
写入
csv
文件
时
为列保留数据中的空格(4space)
、
、
、
、
我有一个带有一条记录的输入
csv
文件
。当我在
pyspark
中读取
文件
时
,
dataframe
分别有三列a、b、c。A和c有数据,b有4个空格的数据。
将
文件
写入
csv
时
,4个空格的数据丢失,它将以空字符串的形式
写入
文件
。aaaa, , bbbbaaaa,"", bbbb 如何按原
浏览 19
提问于2020-02-20
得票数 0
1
回答
如何修复'
DataFrame
‘对象没有属性’聚结‘?
、
、
、
、
在一个
PySpark
应用程序中,我试图
将
数据转换成熊猫,然后
将
结果
写入
csv
文件
。df.toPandas().set_index("s").transpose()在执行此脚本
浏览 2
提问于2017-09-28
得票数 5
回答已采纳
1
回答
将
url处的
pyspark
csv
复制到
dataframe
,而不
写入
磁盘
、
、
如
何在
不
写入
磁盘的情况下
将
url上的
csv
读取到
Pyspark
中的
dataframe
中?我
尝试
过以下几种方法,但都没有成功:from io import StringIO url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/dat
浏览 2
提问于2017-12-16
得票数 11
回答已采纳
1
回答
为什么AWS上的Spark与AbstractMethodError失败?
、
、
、
、
当我试图将我的
DataFrame
输出到XML
时
,我会得到一个错误。/
pyspark
/sql/readwriter.py",第550行,保存
文件
"/mnt/yarn/usercache/root/appcache/application_1517883778506_0016/
pyspark
/sql/utils.py",调用
文件
的第63行中,在
浏览 0
提问于2018-02-06
得票数 4
1
回答
用Spark的from_json
解析
任意JSON
、
如
您所见,每个JSON blob本身的形式为{A:B},其中A是一个随机/任意字符串,B是一个格式相对良好的JSON对象。,doctor]ix,name,profession2,sarah,scientist因为我不知道A的可能键,所以很难
将
JSONblob
解析
为StructType (我无法枚举所有可能的键)或MapType (from_json不支持): >>> rdd.withColumn('parsed'
浏览 2
提问于2018-05-14
得票数 4
2
回答
在同一目录中创建具有和不具有标头的多个
文件
的
PySpark
DataFrame
、
我正在
尝试
从包含多个
文件
的目录创建数据帧。在这些
文件
中,只有一个
文件
有头。我想使用infer schema选项从头部创建模式。但是,当我读取目录中的所有
文件</em
浏览 0
提问于2018-04-26
得票数 1
1
回答
能够读进RDD,但不能读到火花数据格式
、
回溯(最近一次调用):
文件
"/opt
浏览 3
提问于2022-01-25
得票数 0
2
回答
CSV
python的
Dataframe
索引(仅限)
、
、
、
我正在
尝试
将
一些数据转换为pandas数据帧。不知何故,数据帧原来是空的。print语句显示以下内容(部分)Columns: []Empty
DataFrame
Index: [data "2434" "33" "37" "name@emai
浏览 2
提问于2014-11-17
得票数 2
1
回答
在
CSV
文件
中处理JSON对象并保存到
PySpark
DataFrame
、
、
、
、
我有一个
CSV
文件
,它包含JSON对象以及其他数据,比如String,Integer。如果我
尝试
将
文件
读取为
CSV
,那么JSON对象将在其他列中重叠。from
pyspark
.sql.types import *# Initializing SparkSession and setting up thefile source filepath = "s3a://file.
csv<
浏览 2
提问于2020-09-23
得票数 1
1
回答
Pyspark
不能将大型数据输出到
csv
。会话设置不正确?
、
、
、
我的程序应该连接几个表,格式化一些数据,描述最终的结果表并以
csv
格式导出它。我在
将
数据导出到
csv
方面有问题。我的方法引发以下错误: 22/11/30 15:08:50 216 ERROR TaskSetManager:/
pyspark
/sql/functions.py", line
浏览 10
提问于2022-11-30
得票数 0
5
回答
AnalysisException: u“给定spark中sqlContext中的[ list]输入列,无法
解析
'name‘
、
、
我
尝试
了一个简单的例子,比如: data.cache() #
浏览 3
提问于2016-08-18
得票数 18
1
回答
Pyspark
:从表中读取数据并
写入
文件
、
、
、
我正在使用HDInsight spark集群来运行我的
Pyspark
代码。我
尝试
从postgres表中读取数据,并将其
写入
如下所示的
文件
中。pgsql_df返回的是DataFrameReader而不是
DataFrame
。所以我无法
将
DataFrame
写到
文件
中。为什么"spark.read“返回DataFrameReader。from
pyspark
.sql.types import * from
pyspark</
浏览 40
提问于2020-04-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Windows和PC机上搭建Spark+Python开发环境的详细步骤
干货:手把手教你用Python读写CSV、JSON、Excel及解析HTML
谷歌开源 TFRecorder,几行代码即可高效创建数据集
Jupyter在美团民宿的应用实践
数据加载、存储与文件格式
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券