腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
dataframe
:
从
csv
加载
,
然后
删除
第一
行
、
、
、
、
我能够将
csv
文件
从
Azure datalake
加载
到
pyspark
dataframe
中。如何
删除
第一
行
,并使第二
行
作为我的标题? 我见过一些RDD解决方案。但我无法
加载
该文件,并且使用以下代码时出现错误"RDD is file“ items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core
浏览 30
提问于2020-03-20
得票数 0
回答已采纳
4
回答
DataFrame
.to_
csv
抛出错误'[Errno 2]没有这样的文件或目录‘
、
、
、
我正在尝试将一个
DataFrame
写入一个.
csv
文件:date = now.strftime("%Y-%m-%d") enrichedDataFile = enrichedDataDir + "/marketData_optam_" + date + ".
csv
" db
浏览 1
提问于2018-10-12
得票数 1
回答已采纳
1
回答
PySpark
-如何从这个数据中过滤
行
、
我正在尝试从一个文件中读取
第一
行
,
然后
从
dataframe
中过滤它。from
pyspark
.sql.session import SparkSession sc = SparkContext(appName
浏览 4
提问于2020-07-09
得票数 1
回答已采纳
1
回答
使用
pyspark
如何拒绝
csv
文件中的坏(格式错误)记录,并将这些被拒绝的记录保存到新文件中
、
、
我正在使用
pyspark
将数据
从
csv
文件
加载
到
dataframe
中,并且我能够在
删除
格式错误的记录的同时
加载
数据,但是我如何才能拒绝
csv
文件中的这些错误(错误格式)记录,并将这些被拒绝的记录保存在新文件中
浏览 11
提问于2019-01-15
得票数 2
回答已采纳
1
回答
在Azure数据库中将
csv
文件
加载
到Apache数据帧时跳过
第一
行
、
、
在我的笔记本中,下面的代码正确地将以下数据
加载
到
DataFrame
中。HD|20211210 DT|D-|12/22/20
浏览 4
提问于2022-01-14
得票数 0
1
回答
如何使用spark
dataframe
(python/
pyspark
)跳过
csv
文件中不需要的标头
、
如何跳过
csv
中的
第一
行
,并将第二
行
视为
pyspark
dataframe
中的头部: prod,daily,impress01,manish,USA03,willson,Africa 如何跳过
第一
行
(prod daily impress),并使用spark
dataframe
将(id,name,country)视为标题。
浏览 12
提问于2019-04-08
得票数 0
1
回答
如何将大型spark数据帧(5M
行
)/
csv
文件拆分成每个数据帧具有相同标题的区块(优化方案)
、
、
、
、
我有一个很大的
csv
文件(5 5GB),其中包含大约50M
行
。我想让更小的块
csv
(~1M
行
)
从
原始的
csv
文件。我尝试了下面的方法来分块,但花了很多时间来执行分块:data = dask.
dataframe
.read_
csv
('test.
csv
') data.t
浏览 1
提问于2020-09-02
得票数 0
1
回答
根据另一计算列的计算值更新列
、
、
、
、
下面的代码将数据
从
csv
文件
加载
到
dataframe
df中。与此myTable.myTable对应的SQL表myTable已经存在,数据将从这个df导入到df中,其中有几个列。但是在下面的代码的最后一
行
.withColumn("Column6", newFunction2(df.Column5))上抛出以下错误. 问题:我这里可能做错了什么。我们怎样才能纠正错误。注意:如果我
从
Column6中
删除
myTable,并
删除
下面代码的最
浏览 8
提问于2022-05-29
得票数 0
回答已采纳
1
回答
Pyspark
:
从
blob存储
加载
一个zip文件
、
、
、
我正在使用
Pyspark
尝试
从
blob存储区读取zip文件。我想在
加载
文件后将其解压缩,
然后
将解压缩的
CSV
写回blob存储。我遵循这个指南,它解释了如何解压缩文件一次读:df = sqlContext.read.format("file_location").load 我希望这样可以以df的形式将zip
加载
到data
浏览 3
提问于2020-04-21
得票数 1
2
回答
PySpark
用浮动TypeError创建
DataFrame
、
、
、
我有如下数据集:我正在使用
PySpark
解析数据,
然后
使用下面的代码创建一个
DataFrame
:from
pyspark
.sqlimport Row fields = line.split(','SparkSession.builder.appName
浏览 2
提问于2020-07-11
得票数 0
回答已采纳
1
回答
使用
PySpark
有效地将多个小的
csv
文件(130,000个,每个列有2列)合并成一个大框架
、
、
、
、
在主目录中列出了它们的子目录,因此
第一
个单元可能是A/AAAAA,文件位于/data/A/AAA.
csv
。但是所有的列都被命名为VALUE,框架变
浏览 4
提问于2020-02-18
得票数 0
回答已采纳
1
回答
如何将pandas
dataframe
导出到文件中,以便可以使用pandas dan
pyspark
打开?
、
、
、
我读过pandas.read_
csv
和
pyspark
.sql.DataFrameReader.
csv
文档,似乎
PySpark
端没有doublequote参数,所以字段内的引号字符使用转义字符和pandas可以通过在pandas.to_
csv
中设置参数doubleqoute=False和escapechar='\\',在
pyspark
.sql.DataFrameReader.
csv
中设置参数multiLine但是,在我将这些参数设置为pandas.to
浏览 22
提问于2019-06-17
得票数 3
3
回答
如何将
PySpark
中的数据帧/RDD作为
CSV
/Parquet文件快速保存到磁盘?
、
、
、
、
我有一个正在运行的Google Dataproc集群,并且正在向它提交一个
PySpark
作业,该作业
从
Google Cloud Storage (945MB
CSV
文件,400万
行
-->总共需要48秒才能读入)读取一个文件到
PySpark
dataframe
,并对该数据帧应用一个函数(parsed_
dataframe
= raw_
dataframe
.rdd.map(parse_user_agents).toDF
然后
,我必须将这些
浏览 8
提问于2017-08-01
得票数 4
1
回答
如何
删除
熊猫数据的最后一列中的
第一
个值,
然后
删除
剩下的最后一
行
?
、
下面我用熊猫来阅读我的
csv
文件,格式如下:dataset =
dataframe
.values 如何
删除
dataframe
中最后一列中的
第一
个值,
然后
删除
dataframe
中的最后一
行
?
浏览 6
提问于2017-08-22
得票数 0
回答已采纳
1
回答
Spark (Databricks)来自SQL的非托管表不处理标头
、
、
正在尝试使用SQL API
从
CSV
文件在Spark (Databricks)中创建非托管表。但是
第一
行
没有被用作标题。 图2显示了使用
Dataframe
API创建非托管表时
第一
行
是正确的。该
Dataframe
是
从
同一
csv
文件
加载
的。 但是,图1显示,
从
SQL中的
CSV
文件数据源创建非托管表时,不会将
第一
行
作为标题处理。我是否
浏览 26
提问于2021-07-15
得票数 1
回答已采纳
1
回答
如何使用Databricks将
PySpark
数据保存到个人计算机?
、
、
我在Databricks环境中有一个
dataframe
。我需要把这个数据下载到我的个人电脑上。此
dataframe
包含10,000
行
。因此,请尝试执行以下操作: df_test.coalesce(1).write.
csv
("dbfs:/FileStore/tables/df_test", header=True, mode='overwrite
浏览 4
提问于2022-07-08
得票数 0
回答已采纳
4
回答
PySpark
java.io.IOException:方案没有FileSystem : https
、
、
我正在使用本地窗口,并试图用python上的以下代码
加载
XML文件,我遇到了这个错误,有人知道如何解决它吗?990.s3.amazonaws.com/201611339349202661_public.xml") 1135 for temp_arg in temp_args: C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\
pyspark</
浏览 87
提问于2017-11-17
得票数 4
回答已采纳
1
回答
火花放电数据的模糊搜索
、
、
我有一个大型
csv
文件(>9600万
行
)和七列。我想对其中一个列进行模糊搜索,并检索与输入字符串相似程度最高的记录。这个文件是由spark管理的,我通过
pyspark
将它
加载
到一些
dataframe
中。现在,我想使用像fuzzywuzzy这样的方法来提取与最佳匹配的
行
。函数提取返回一些我无法使用的内容:结果:[(Co
浏览 9
提问于2022-09-27
得票数 0
2
回答
在Spark /
PySpark
中使用文件名连接数据
、
、
、
我正在从
PySpark
中的许多
PySpark
文件中读取数据。S3键包含创建文件的日历日期,我希望在数据和该日期之间进行连接。是否有任何方法在文件和文件名中的数据
行
之间进行连接?
浏览 2
提问于2015-10-16
得票数 0
回答已采纳
2
回答
如何在
pyspark
.sql中作为select创建表
、
、
、
我做以下几件事findspark.init()from
pyspark
.sql import SQLContext sc =
pyspark
.SparkContext17/01/21 17:19:43警告NativeCodeLoader:无法为平台
加载
本机-hadoop库.在适当的情况下使用内置-java类(最近一次调用):文件"/Users/user/spark-2.0.2-bin-hadoo
浏览 5
提问于2017-01-21
得票数 6
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券