腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
跳过
行在
Spark
中
读取
csv
、
、
、
我正在尝试将数据从
csv
文件加载到DataFrame。我必须
使用
spark
.read.
csv
()函数,因为rdd sc.fileText()不能处理文件
中
的特定数据(
csv
数据中有不可见的逗号字符,rdd sc.fileText()会将它们拆分)。
csv
文件在开始时有几行要
跳过
: Report <- to skipSessions <- to skip <
浏览 13
提问于2019-06-11
得票数 1
1
回答
带验证的
Spark
read
csv
、
、
我正在
使用
spark
的
读取
功能
读取
csv
文件sparkSession.read.option("delimiter",",").schema(schema).
csv
("test.
csv
").as[Customclass] 问题是,当某一<e
浏览 14
提问于2018-02-06
得票数 0
回答已采纳
1
回答
Spark
忽略字符串
中
的逗号
尝试通过
spark
会话加载
csv
,但遇到在.i.e
中
包含双引号和逗号的字符串问题。SOLUTIONS LIMITED""""A"" STAR ACCOUNTING 通过
spark
会话
读取
csv
读取
csv
浏览 19
提问于2018-02-07
得票数 1
回答已采纳
2
回答
如何
读取
火花放电
中
的特定列?
、
、
我想从输入文件
中
读取
特定的列。我知道如何在熊猫身上这样做。但是是否有类似于火花放电操作的任何功能呢?
浏览 11
提问于2017-05-29
得票数 3
回答已采纳
1
回答
使用
pyspark从S3
读取
csv
作为
spark
数据帧(
Spark
2.4)
、
、
、
、
我想从s3 (s3://test-bucket/testkey.
csv
)
读取
一个
csv
文件,作为
使用
pyspark的
spark
数据帧。我的集群运
行在
spark
2.4上。并且
csv
文件不会作为粘合表被爬行。 你可以粘贴你的pyspark代码,这是基于
spark
会话,并转换为
csv
到
spark
数据帧在这里? 在此先致谢并致以最良好的问候
浏览 16
提问于2019-10-07
得票数 3
1
回答
PySpark和Pandas
读取
从S3
中
分离的
csv
文件
跳过
空文件
、
、
、
、
使用
PySpark,我有一些代码可以运
行在
一系列查询
中
。for index, query in enumerate(query_map): query).write.
csv
('s3://OutputBucket所以我的代码花了很多时间试图
读取
一个空的
csv
文件,结果却抛出了一个异常。据我所知,df_
spark
.toPandas()函数克服了
spa
浏览 3
提问于2018-02-07
得票数 1
1
回答
数据帧: pd.read_
csv
错误
、
、
我有一个很大的文本文件,我用pd.read_
csv
读取
了它。但它不能
读取
数据帧
中
的特殊行并返回该行的NAN值。我知道,如果我在行
中
添加一个空格,一切都会正常工作。
浏览 11
提问于2021-04-14
得票数 0
2
回答
Spark
文件格式转义\n正在加载
CSV
、
、
我正在
使用
spark
读取
CSV
管道分隔的数据文件。这是有资格引用的。一个文本块中有一个/n,它会导致
读取
损坏。我不明白的是,它是引用限定文本,所以它肯定应该
跳过
它!?行本身是CR+LN分隔的。这就是我用来加载数据的代码val df =
spark
.read .s
浏览 2
提问于2018-08-10
得票数 0
回答已采纳
1
回答
过滤火花数据
、
、
、
、
我创建了一个dataframe,如下所示:在执行ratings.show()时,如下面所示,我可以看到imdbRating字段具有混合类型的数据,如随机字符串、电影标题、电影url和实际评级。所以脏数据看上去如下:| imdbRating||Mary
浏览 4
提问于2018-12-10
得票数 0
回答已采纳
2
回答
在Pyspark (
Spark
2.1.1)
中
,将数据帧写入磁盘花费了不现实的长时间
、
、
除了写入磁盘之外,所有其他操作(
读取
、联接、过滤、自定义UDF)都可以快速执行。我尝试保存的数据帧的大小约为400 gb,具有200个分区。sc.getConf().getAll()我正在尝试
使用
以下命令进行保存:当我的意思是其他操作被快速执行时,在转换之后总是有一个操作,在我的例子
中
它们是行数。所以所有的操作都执行的非常快。我仍然不明白
浏览 1
提问于2017-11-28
得票数 1
1
回答
从
CSV
文件的第n行加载数据
、
、
我想处理一个巨大的命令
CSV
文件(5GB),在文件的开头有一些元数据行。头列在第4行中表示(以"h,“开头),后面是另一个元数据行,描述可选性。,Val100 .format("
csv
") .option("header", "
浏览 3
提问于2017-03-26
得票数 2
回答已采纳
1
回答
在python
中
读取
csv
文件时
跳过
几行
、
、
我有一个
CSV
文件,在实际的
CSV
启动之前有一些头信息。我希望
跳过
1-19
中
的所有行,然后从20行(以黄色突出显示)开始
读取
CSV
,然后
跳过
第21和22行以及最后一行第30,然后开始处理文件的其余部分。 import pandas as pd df=pd.read_
csv
("C:\\Users\\xyz\\Downloads\\
Spark
\\avltest.
csv</e
浏览 0
提问于2019-09-13
得票数 2
1
回答
读取
Spark
中
的多个
CSV
文件并生成DataFrame
、
、
、
我
使用
下面的代码
读取
多个
csv
文件,并将它们转换为熊猫df,然后将其作为一个单独的熊猫df连接起来。最后再一次转换为星火DataFrame。我想
跳过
转换到熊猫df部分,只是想有火花DataFrame。=1/dayofmonth=1/hour=2/*.
csv
spark
_df =
spark
.read.format("
csv</e
浏览 1
提问于2021-04-14
得票数 1
回答已采纳
2
回答
火花
CSV
阅读器:混淆日语文本和处理多行
、
、
、
、
在我的星火作业(星火2.4.1)
中
,我在S3上
读取
CSV
文件。这些文件包含日本characters.Also,它们可以具有^M字符(u000D),所以我需要将它们解析为多行。首先,我
使用
以下代码
读取
CSV
文件: implicit class DataFrameReadImplicits (dataFrameReader: DataFrameReader) {在做了一些测试之后,我发现如果我
使用
"
spark
.sparkContext.tex
浏览 2
提问于2020-05-18
得票数 1
1
回答
Pyspark在docker
中
找不到
csv
、
、
我有一个docker镜像,运
行在
python3.7上--阿尔卑斯山。现在,我只想将
csv
文件读入
spark
数据帧
spark
= SparkSession. \ master("
spark
://
spark
-master:7077"). \Crimes_2001_to_Pre
浏览 25
提问于2020-12-21
得票数 1
回答已采纳
1
回答
从dbfs (> 2gb )复制和
读取
文件的databricks错误
、
、
我有6GB大小的
csv
。到目前为止,我
使用
的是下面一行,在
使用
java之后在dbfs上检查它的大小时,它仍然显示为6GB,所以我假设它是正确的。但是,当我做一个
spark
.read.
csv
(samplePath)时,它只
读取
1800万行,而不是6600万行。dbutils.fs.cp("file:" + _outputFile, _outputFile) Databricks自动假定,当您执行
spark
.read.
csv
( path
浏览 1
提问于2019-07-19
得票数 1
回答已采纳
4
回答
如何在python中
使用
pandas read_
csv
自动
跳过
具有非浮点值的行?
、
、
我有数以千计的.
csv
文件,其中包含大量的感官数据,都是浮点数。但在一些文件
中
也有一些行显示日期和时间信息,这些信息出现在文件
中
的不同位置,如下图所示: ?
使用
pandas read_
csv
函数
读取
文件时,应
跳过
此类非浮点行,以免出错。 我
使用
skiprows函数在常量的行索引处
跳过
特定的行,但问题是不需要的
行在
文件
中
的位置是可变的。all_list)): path = os
浏览 142
提问于2021-02-01
得票数 1
回答已采纳
1
回答
在
Spark
中进一步处理之前,将
CSV
文件转换为Parquet是否有好处?
、
、
、
、
我有一个ETL任务加载了很多
CSV
文件。其中一些
CSV
文件包含相同类型的数据,例如,60个文件包含一个初始数据帧的数据,另外30个文件包含另一个初始数据帧的数据,依此类推。然后
使用
Dataframe API连接和聚合这些数据帧,最终将最终的数据帧保存到一个Parquet文件
中
。 在
读取
这些拼图文件和进一步处理之前,首先将所有
CSV
文件组转换成单个拼图文件对我是否有好处?它会让事情变得更快吗(考虑到这个转换步骤在我的工作
中
每次都会运行)?
Spark
<em
浏览 0
提问于2018-07-12
得票数 1
1
回答
如何从excel工作表中加载特定的行和列,通过吡火花加载到单元表?
、
我的目标在下面2) ignore the first 3 rows, and read the data from 4th rowThe file has more than 2000 rows. 3) convert all the worksheets from the excel to separate
CSV
, and我可以创建一个Df来
读取
单个文件并将其加载到HIVE
中
。但我想我的要求还不止这些。
浏览 3
提问于2018-09-11
得票数 0
回答已采纳
1
回答
火花:如何递归
读取
目录中所有扩展名不同的文件?
、
、
└── f2.parquet ├── a └── b是否有一种方法可以
跳过
一些文件(有一些未知的扩展名),而
使用
火花阅读。我可以
读取
目录
中
的所有文件吗?
浏览 0
提问于2021-08-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用python 打开并读取 csv 文件
python如何读取CSV文件中的特定行数据
使用Spark将本地文件读取并封装为DataFrame的完整指南
使用 Python 读取电子表格中的数据
灵活强大:iObjects Java for Spark模块扩展开发
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券