在SPARK中操作RDD，通过行分隔符将行合并到块中

、

我在下面的文件中有一份RDD数据的副本，我想根据行分隔符合并行，这样我就可以得到RDDPerson。nurseid : 3job : policeman -------------- 请注意，数据文件很大，无法放入内存，因此您不能执行以下操作

浏览 13提问于2019-09-23得票数 1

3回答

关于Apache火花内部部件的问题- RDDs

我有几个关于星火内部的问题，特别是RDD。基于文档中的内容，RDDs的谱线图是DAG结构。任何提及代码或说明

浏览 6提问于2016-02-03得票数 0

2回答

如何将rdd /数据帧/数据集转换为字符串

、、、

如何在spark scala中不使用collect将rdd /数据帧/数据集转换为字符串/列表

浏览 0提问于2019-09-24得票数 0

1回答

如何从pysark文件中匹配/提取多行模式

、、

/cebcf9> <quantityAmount> "24954")和单位(<value/cebcf9> <quantityUnit> <Meter>) 通常的方法是逐行读取文件并提取上述模式中的每一个(使用sc.textFile('inFile').flatMap(lambda : extractFunc(x))，然后通过不同的连接将它们组合起来，从而提供上表。

浏览 0提问于2019-08-14得票数 3

回答已采纳

1回答

如果实际数据嵌入了相同的分隔符，如何使用Spark读取分隔文件

、、、

我正在尝试将文本文件读取到rdd中。"1" "Hai How are you!""56"带有Tab分隔符的3列。我的数据也被嵌入相同的分隔符(你好\tHow！)。有人能帮我在这里正确的解析数据吗？my_Rdd = Spark.SparkContext.textFile(&qu

浏览 1提问于2020-12-10得票数 0

回答已采纳

2回答

如何插入或更新已从外部数据库加载的spark rdd

、

我在mongodb中有100000条记录。我已经在RDD中加载了其中的一部分，一段时间后，当我获得一个与RDD中已经加载的数据相匹配的新记录时。我需要将新记录直接添加到RDD，而不是外部数据库。

浏览 0提问于2016-05-26得票数 1

1回答

Spark cache是否会以任何时间间隔自动更新新的数据值？

、、

我想知道cassandra中的数据每次更新时，缓存是否会自动更新？

浏览 0提问于2015-08-21得票数 3

1回答

带验证的Spark read csv

、、

我正在使用spark的读取功能读取csv文件sparkSession.read.option("delimiter",",").schema(schema).csv("test.csv").as[Customclass] 问题是，当某一行在末尾被剪切时，或者当某些字段在开始时丢失时，s

浏览 14提问于2018-02-06得票数 0

回答已采纳

1回答

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

、、、

在下面的场景中，我使用Spark读取了一个Parquet文件：文件中的块数(行组)：3blockSize: 195 MB, rowCount: 1395661以下是代码：println(df.rdd.getNumPartitions) // result is 1 parquet.block.size= 1

浏览 3提问于2020-05-17得票数 2

2回答

使用自定义行/行分隔符/分隔符将DataFrame写入csv文件

、、

似乎没有用于更改csv输出类型的行分隔符的选项。例如： df.coalesce(1).write\.mode("overwrite")\ .option("header",

浏览 25提问于2019-08-30得票数 1

回答已采纳

1回答

我试图用spark处理一个文件，但我的输入文件只有一条信息“记录”，分布在3行上。除了知道第四行是新记录的开始之外，没有记录分隔符。我看到的所有其他与多行记录相关的问题似乎都有某种明显的记录分隔符，而在本例中我没有分隔符，我必须依赖于行计数。我的第一个想法是使用org.apache.spark.mllib.rdd.RDDFunctions中的sliding函数 sc.textFil

浏览 1提问于2017-02-15得票数 1

1回答

我的本地火星雨少了什么？

、

我刚刚开始学习pyspark，这里似乎是一个展示器:我试图将一个本地文本文件加载到spark中： base_df = sqlContext.read.text("/root/Downloads/SogouQ1broadcast_3存储为内存中的值(估计大小为212.1 KB，空闲309.7 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:内存中存储为字节的块broadcast:-2回

浏览 5提问于2016-12-29得票数 1

2回答

如何优化下面的星火代码(scala)？

、、、、

1列对其排序 ( a)获取列子集的所有不同的记录 ( a)获取列子集的所有不同的记录)将其写入测试文件 inputTest.rdd.coalesce(1,false).saveAsTextFile("test.csv")/bin/sp

浏览 1提问于2016-11-29得票数 1

回答已采纳

1回答

使用Spark分区

、

我是Spark的新手，有一些关于Spark RDD操作和创建的问题：另外，为什么它比普通的map()函数快呢？既然分区中的每个元素都再次使用map(x => x + " -&

浏览 0提问于2016-10-30得票数 2

1回答

、

我有一个火花作业，在第0阶段有几十万个任务(300000个或更多的任务)，然后在洗牌过程中，以下异常抛到驱动端：java.io.ObjectOutputStream.close(ObjectOutputStream.java:740) at org.apache.spark.MapOutputTracker$$anonfun$serializeMapStatuses$

浏览 3提问于2017-09-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

关于Apache火花内部部件的问题- RDDs

如何将rdd /数据帧/数据集转换为字符串

如何从pysark文件中匹配/提取多行模式

如果实际数据嵌入了相同的分隔符，如何使用Spark读取分隔文件

如何插入或更新已从外部数据库加载的spark rdd

Spark cache是否会以任何时间间隔自动更新新的数据值？

带验证的Spark read csv

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

使用自定义行/行分隔符/分隔符将DataFrame写入csv文件

Spark使用slidingRDD读取多行记录

我的本地火星雨少了什么？

如何优化下面的星火代码(scala)？

使用Spark分区

如何分割一个巨大的rdd并轮流播放？

lambda rdd.map提供: TypeError：-的不受支持的操作数类型(S)：“行”和“浮点”

如何将<class‘class’_. How .

测量时间火花操作(装载、处理、写入)

文本数据源只支持一列，并且有8列。

MapOutputTracker serializeMapStatuses内存中的火花输出错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐