腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Spark
(
Scala
)
中
读取
带有
新
行
和
新
列
的
自定义
分隔符
的
文件
、
、
读取
新
行
分隔符
为"^*~"、
列
分隔符
为"^|&"
的
文本
文件
的
最佳方法是什么?我有一个有很多
列
的
文件
,比如超过100
列
。请建议一下有效
的
方法。下面是包含少量字段
的
文件
。我有一个像这样
的
文件
abcd^|&cdef^|&am
浏览 18
提问于2017-01-13
得票数 2
回答已采纳
1
回答
在Apache
Spark
CSV
中
,我们为字段指定了
分隔符
,但是如何为
行
指定
分隔符
呢?
我们有不同类型
的
CSV
文件
,其中一些是换行符作为
行
分隔符
,还有一些是其他
自定义
分隔符
,
如
|,!..etc是
行
分隔符
。那么如
何在
spark
CSV数据
读取
中提供
行
分隔符
。
浏览 4
提问于2017-10-04
得票数 1
1
回答
如
何在
scala
中
处理文本限定符分隔
文件
、
、
我有很多
带有
文本限定符
的
分隔
文件
(每一
列
开始
和
结束都有双引号)。分隔是不一致
的
,即可以有任何
分隔符
,
如
逗号(,)、管道(\)、~、制表符(\t)。我需要用文本(单列)
读取
这个
文件
,然后考虑文本限定符来检查
分隔符
的
no。如果任何记录
的
列
数少于或多于定义,则应拒绝该记录并将其加载到不同
的
路径。 下面是具有3
列
ID、
浏览 1
提问于2017-10-03
得票数 1
回答已采纳
2
回答
在星火中向DataFrame添加一个
新
列
、
、
、
、
我希望向DataFrame
中
的
Spark
(
Scala
)
中
添加一个
带有
行
id
的
新
列
。这就是我所采取
的
方法。我正在创建一个
带有
索引id
的
新
行
和
一个包含了另一个StructType
的
新
StructField。$$anonfun$6.apply(SQLContext.
scal
浏览 4
提问于2016-05-02
得票数 0
回答已采纳
1
回答
读取
csv
文件
的
multiLine选项不适用于具有
新
行
闪烁2.3
和
闪烁2.2
的
记录。
、
、
、
我正在尝试使用pyspark
读取
器
读取
dat
文件
,它包含换行符("\n")作为数据
的
一部分。
Spark
无法将此
文件
读入单个
列
,而只能将其视为
新
行
。
spark
.read.csv(file_path, schema=schema, sep=delimiter,multiLine=True) 数据就是这样
的
。这里$是CRLF
的
换行符,
如
vim所示。如
浏览 0
提问于2018-04-02
得票数 1
回答已采纳
1
回答
如何
读取
多行文本
文件
(
分隔符
换行符)作为不同csv数据
文件
的
标题?
、
我有单独
的
头
文件
和
正文
文件
。正文
文件
是具有
自定义
分隔符
的
csv
文件
。头
文件
是一个多行
文件
,每个列名都在一
行
中
。我想知道如何
读取
头
文件
。已尝试使用多行选项
和
换行符作为
分隔符
.opti
浏览 12
提问于2019-07-19
得票数 0
2
回答
使用
Scala
将
Spark
中
的
所有
新
行
转换为
新
列
、
、
、
我有一个数据帧,它有固定
的
列
,
如
m1_amt to m4_amt,包含以下格式
的
数据: +------+----------+----------+----------+-----------++------+----------+----------+----------+-----------+ 我尝试将每个
新
行
转换为一个
新
列
3 | 7 | 1
浏览 22
提问于2020-01-01
得票数 1
回答已采纳
2
回答
如何使用ascii控制字符作为
分隔符
在excel中导出电子表格(csv)?
、
、
我有这个csv
文件
,我想用Ruby进行解析。该
文件
的
数据是一个集群,字段中有逗号
和
新
行
,但Excel仍然正确地
读取
它。如果可以使用单元
和
记录
分隔符
作为
列
和
行
的
分隔符
从excel导出
文件
,我将是金色
的
。 有人知道如
何在
excel中指定这些字符吗?谢谢!
浏览 8
提问于2014-08-16
得票数 1
回答已采纳
1
回答
从avro
文件
中
获取火花dataframe
列
中
每一
行
的
数据
、
、
我正在尝试处理我
的
dataframe
中
的
一个
列
,并从每个条目对应
的
avro
文件
中
检索一个度量。基本上,我想做以下几点:
读取
路径
列
的
每一
行
,这是作为数据
读取
到avro
文件
中
的
avro
文件
的
路径&获取精度度量,它以Struct
的
形式创建一个名为
的
<em
浏览 4
提问于2022-07-01
得票数 0
1
回答
如果实际数据嵌入了相同
的
分隔符
,如何使用
Spark
读取
分隔
文件
、
、
、
我正在尝试将文本
文件
读取
到rdd
中
。"1" "Hai How are you!""56"
带有
Tab
分隔符
的
3
列
。我
的
数据也被嵌入相同
的
分隔符
(你好\tHow!)。有人能帮我在这里正确
的
解
浏览 1
提问于2020-12-10
得票数 0
回答已采纳
1
回答
如何查看Delta Lake
中
特定版本
的
数据
的
具体变化
、
、
、
、
现在,我有一个测试数据,其中有一个分区,在该分区中有两个parquet
文件
val df =
spark
.read.format("delta").load("./test1510/table@v1")val df =
spark
.read.format("delta").load("./test1510/
浏览 12
提问于2020-02-03
得票数 2
2
回答
读取
CSV时,最后一
列
在
Spark
中
为Null,
Scala
、
、
、
、
当我尝试使用
Spark
和
scala
读取
管道分隔
的
文件
时,如下所示:2|Marketing|102|val part =
spark
.read.format("com.databricks.
spark
.csv") .load("file_
浏览 7
提问于2020-09-13
得票数 2
2
回答
Spark
2.0
Scala
-使用转义
分隔符
读取
csv
文件
、
我正在尝试
读取
一个CSV
文件
,该
文件
使用反斜杠来转义
分隔符
,而不是使用引号。我尝试过在不使用qoutes
和
使用转义字符
的
情况下构建DataFrameReader,但它不起作用。除了创建
自定义
输入格式之外,还有什么方法可以解决这个问题吗?下面是我现在使用
的
选项: "sep" -> ",", "encoding&qu
浏览 17
提问于2016-09-12
得票数 3
1
回答
将当前行与下一
行
合并,直到当前行长达到x为止。
、
、
背景: 我目前有大型
文件
被上传到AWS S3,这些
文件
在某些
列
中
包含
新
的
行
字符,导致它们被错误地
读取
。但是,这些
文件
确实有一个非常特定
的
列
分隔符
~#~。为了删除不正确
的
换行符,我目前正在通过aws胶水流
文件
,如果当前行没有应有的
列
数,则将每一
行
与下一
行
合并。我尝试过map、flatMap<em
浏览 2
提问于2018-12-19
得票数 1
回答已采纳
1
回答
SparkContext.newAPIHadoopFile应用编程接口是否并行读入
和
处理单个
文件
?
、
我需要使用
Spark
将一个巨大
的
未压缩文本
文件
(>20 to )
读取
到RDD
中
。
文件
中
的
每条记录都跨越多行(每条记录不超过20
行
),所以我不能使用sc.textFile。我正在考虑使用
带有
自定义
分隔符
的
SparkContext.newAPIHadoopFile。然而,由于
文件
相当大,我很好奇
读取
和解析是分布在多个
S
浏览 29
提问于2019-08-06
得票数 0
2
回答
如何让hadoop忽略输入
文件
中
的
字符?
、
、
、
、
我正在使用Hadoop
的
map还原函数编写一个倒排索引创建者。我输入
文件
中
的
一些行将字符\n写成实际字符(不是ASCII 10,而是两个实际字符'\‘
和
'n')。由于某些原因,我不明白,这似乎导致map函数将我
的
行
分割成两
行
。 32155:韦德伍德广播:行动将于5月1日星期五开始,按原计划进行!(locations.
浏览 5
提问于2015-05-28
得票数 0
1
回答
如
何在
C#流
中
模拟Java Scanner
的
next()方法?
、
、
、
、
Java Scanner有一个方法,它从流
中
读取
下一个令牌,其中令牌是由
分隔符
分隔
的
东西(缺省情况下,
分隔符
是任何空白字符,包括制表符
和
新
行
)。 我如
何在
C#/.NET
中
做到这一点?C#
中
的
流有Read()
和
ReadLine(),但它们没有空格或
自定义
分隔符
的
概念。我可以
读取
整个<e
浏览 0
提问于2011-05-28
得票数 3
回答已采纳
1
回答
圆星火DataFrame现场
、
我
读取
了一个.csv
文件
到。对于DoubleType
列
,是否有一种方法可以在
文件
时指定此列应四舍五入至小数点2位?我还为DataFrameReader API调用提供了一个
自定义
模式。下面是我
的
模式
和
API调用:#
spark<
浏览 0
提问于2018-05-01
得票数 0
回答已采纳
1
回答
Spark
Dataframe:
行
对象
分隔符
、
、
你好,我正在使用
spark
dataframe
和
scala
进行一些数据处理,我有一个需求,我需要
读取
多个具有相同数据类型
的
列
,即从拼图
文件
中
读取
结构类型,以处理
和
创建具有与结构类型字段相同
的
模式
的
新
数据帧,即field1,field2
和
field3,并使用下面示例
中
显示
的
所有
列
的</e
浏览 3
提问于2016-04-08
得票数 0
1
回答
如
何在
不使用数据帧
的
情况下将一
行
分解为多行?
、
我已经创建了数据帧,用于根据
分隔符
将一
行
分解为多行。我已经使用了explode函数来做同样
的
事情。我想知道我是否可以跳过这里
的
数据帧
的
使用,只使用SparkSQL来执行这个操作。
浏览 1
提问于2019-04-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
4种方法,在Word里面的已有表格中插入新的行和列
年薪50万+的大数据工程师需要具备哪些技能?
遇见YI算法之初识Pyspark(二)
Spark之SparkSQL
一个Python大数据处理利器:PySpark入门指南
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券