从可变长度CSV到配对RDD的Spark变换

、、

我是scala spark的新手，我有一个CSV文件，如下所示。90R003, L, 30, M, 54, N, 67, O, 25, P, 85, Q, 100R002, GR002, JR003, MR003, OR003, Q 我试过了，它看起来没问题，但我想还有更好

浏览 10提问于2018-03-01得票数 3

回答已采纳

2回答

在RDDs中操作向量和列表

、、、

我是Spark和Scala新手，在以下RDD转换方面我确实需要一些帮助：简而言之，我已经有一个按键(macAddress)分组的rdd，其中包含成对的值列表。我需要将列表的向量转换为包含从列表中计算出来<em

浏览 3提问于2016-11-08得票数 0

回答已采纳

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

、、

我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过程：从

浏览 4提问于2017-02-03得票数 0

2回答

在Spark中对可变集合建模

、

我们现有的应用程序在启动时将大约一千万行从数据库加载到对象集合中。该集合存储在GigaSpaces缓存中。我们正在研究使用Spark和Scala重新设计应用程序的可行性和附加值。问题是，在Spark中建模的正确方式是什么。我的第一个想法是从数据库加载到

浏览 2提问于2016-01-25得票数 2

3回答

我的Spark Streaming作业需要处理RDD[String]，其中字符串对应于csv文件的一行。我事先不知道模式，所以需要从RDD推断模式，然后将其内容写入parquet文件。如果我从磁盘中读取一个csv文件，我只需使用模式推断将所有内容加载到DataFrame中，并立即将其写入parquet。不过，在我的场景中，我的起点是一个RDD[String]，它是流的结果。

浏览 5提问于2017-06-14得票数 2

4回答

RDD和Pair RDD的区别和用例

我刚开始接触spark，并试图理解普通RDD和配对RDD之间的区别。使用成对RDD而不是普通RDD的用例有哪些？如果可能，我想通过一个例子来了解pair RDD的内部结构。谢谢

浏览 1提问于2016-05-06得票数 15

9回答

把CSV带到Spark* dataframe*

、

我在Spark上使用python，并希望将csv转换为dataframe。 Spark的奇怪地没有提供CSV作为源的解释。:spark-csv_2.10:1.0.3"，我真的需要增加这个论点，每次我启动火花放电或火花提交？df = sqlContext.load(source="com.databricks.spark.csv", header="true", pat

浏览 6提问于2015-04-29得票数 20

回答已采纳

2回答

如何将RDD保存到HDFS中并在以后将其读回？

、、、、

我有一个RDD，它的元素类型是(Long，String)。出于某些原因，我想将整个RDD保存到HDFS中，然后在Spark程序中读回该RDD。这样做有可能吗？如果是这样，又是如何做到的呢？

浏览 0提问于2016-10-16得票数 15

回答已采纳

5回答

如何将时间戳作为额外列添加到dataframe中？

、、、

*大家好，val topicMaps = Map("topic" -> 1)

浏览 9提问于2017-01-09得票数 10

10回答

什么是spark中的RDD

、、、

定义是：用户以两种方式创建RDDs :通过加载外部数据集，或者通过在其驱动程序中分发对象集合(例如，列表或集合我对RDD的理解以及与spark和hadoop的关系真的很困惑。

浏览 91提问于2015-12-23得票数 46

回答已采纳

2回答

在Spark中创建二进制直方图

、、、、

假设我有一个包含以下两列的dataframe (df) (Pandas)或RDD (Spark)：12345.0 10 在Pandas中，我可以很容易地创建不同bin长度的二进制直方图。例如，要创建一个超过1小时的直方图，我执行以下操作：df.r

浏览 1提问于2015-12-29得票数 1

3回答

创建数据架构的有效方法是什么？

我是个新手，我发现有两种方法可以创建数据框架的模式。我有一个RDD: empRDD和数据(除以"，")| 1| Mark| 1000| HR|val empData = empFile.map(e => e.split(",")) 创建模式的第一种方法是使用

浏览 9提问于2017-06-22得票数 0

回答已采纳

4回答

什么是黑暗？.它与mapPartitions有何不同？

、

我在RDD上遇到了glom()方法。根据文件我还想知道是否有任何从glom中受益的用例。

浏览 4提问于2016-03-02得票数 15

回答已采纳

2回答

如何将多个带有双重的CSV文件合并到一个具有文件名的RDD中？

、、

我有3组CSV文件，它们基本上是一个双值列表(每行有一个双值)，每个月分割：B: bJan.csv, bFeb.csv, bMarch.csvC: cJan.csv, cFeb.csv, cMarch.csv 我想计算A，B，

浏览 3提问于2017-07-20得票数 1

1回答

星火本地模式-所有作业只使用一个CPU核心

、、、

我们在单个AWS EC2实例上以本地模式运行Spark，使用然而，使用New工具和一个简单的“top”进行分析表明，我们16台核心机器中只有一个CPU核心用于我们编写的三个不同的谢谢1)使用sqlContext从磁盘(S3)读取gzipped CSV文件1，并使用com.databricks.spark.csv (S3)读取DataFrame DF1。2)使用sqlContext从</e

浏览 2提问于2016-10-31得票数 6

回答已采纳

13回答

如何跳过星火中CSV文件的标题？

、、

假设我为一个Spark上下文提供了三个要读取的文件路径，并且每个文件在第一行中都有一个模式。我们如何从标头跳过模式行？val rdd=sc.textFile("file1,file2,file3") 现在，我们如何从这个rdd跳过头行？

浏览 8提问于2015-01-09得票数 74

回答已采纳

2回答

spark中基于模式匹配的文件加载

、、

我有31个输入文件，命名为从date=2018-01-01到date=2018-01-31。我能够以这种方式将所有这些文件加载到rdd中：但是如果我只想加载一个星期的文件呢？(从日期=2018-01-15到日期=2018-01-22)。

浏览 9提问于2018-03-02得票数 2

回答已采纳

4回答

如何在CSV中使用双管道作为分隔符？

、

Spark 1.5和Scala 2.10.6 我有一个使用“π”作为分隔符的数据文件。我很难通过解析来创建一个数据帧。是否可以使用多个分隔符来创建数据框？代码可以处理单个断开的管道，但不能处理多个分隔符。我的代码： val customSchema_1 = StructType(Array( StructFieldStructField("CODE", StringType, true)));

浏览 93提问于2016-12-22得票数 7

回答已采纳

1回答

rdd.cache是如何工作的？

在下面的代码中，我创建了一个rdd，对其进行了缓存，并从中创建子rdd。vertexRDD -> newVert1 -> newVert2 -> newVert3 -> newVert4 -> newVert5.我在每个RDD中执行一个简单的增量操作。未启用缓存时，newVert1、newVert2、newVert3 RDD的阵列值为 0:ArrayBuffer(1, 0, 0, 0) 0:ArrayBuffer(2, 0, 0, 0) 0:ArrayB

浏览 2提问于2017-09-19得票数 0

1回答

如何在Spark中使用Scala解析多段固定位置文件

、、

我是stackoverflow的新手(老读者，但我现在想参与)。我也是Scala、Spark和函数式编程的新手。期待着在各方面做出贡献和学习。我的问题是：我正在使用可变记录长度(文件中的多个部分)和固定位置字段(也称为固定宽度-其中格式由列宽度指定)。例如，myfile.txt布局(从1开始)是: 1-5 =第1列，5-6 =第2列，6-20 =第3列，20-28 =第4列；而子头-a2至子脚注-z2具有完全不同的布局1-3 =第1

浏览 3提问于2015-08-06得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在RDDs中操作向量和列表

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

在Spark中对可变集合建模

如何用模式推理将RDD[String]写到拼图文件中？

RDD和Pair RDD的区别和用例

把CSV带到Spark* dataframe*

如何将RDD保存到HDFS中并在以后将其读回？

如何将时间戳作为额外列添加到dataframe中？

什么是spark中的RDD

在Spark中创建二进制直方图

创建数据架构的有效方法是什么？

什么是黑暗？.它与mapPartitions有何不同？

如何将多个带有双重的CSV文件合并到一个具有文件名的RDD中？

星火本地模式-所有作业只使用一个CPU核心

如何跳过星火中CSV文件的标题？

spark中基于模式匹配的文件加载

如何在CSV中使用双管道作为分隔符？

rdd.cache是如何工作的？

如何在Spark中使用Scala解析多段固定位置文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐