使用spark从dataframe / RDD获取按键的行数_从RDD中的Pandas DataFrames创建Spark DataFrame_如何仅使用rdd而不使用dataframe从spark中的csv获取第N列 - 腾讯云开发者社区

、

我有一个用逗号分隔的文件。Hayward,CA,2323 1,2 .format("com.databricks.spark.csv") .option("header", true) //，并且我正在更新并发映射中的<

浏览 41提问于2019-06-20得票数 0

回答已采纳

3回答

如何找到spark* RDD/*Dataframe大小？

、、

我知道如何在scala.But中找到文件大小如何在spark中找到RDD/dataframe大小？如何找到RDD大小？

浏览 4提问于2016-01-26得票数 45

回答已采纳

4回答

在DataFrames上执行RDD操作

、、、、

我有一个包含10个字段的数据集。我需要在这些DataFrame上执行RDD操作。是否可以执行map、flatMap等RDD操作。下面是我的示例代码：这是我的dataframe，我需要将这个dataframe转换成RDD，并在这个新的RDD上操作一些RDD下面是我如

浏览 2提问于2016-12-14得票数 0

1回答

使用spark-streaming执行sql并将DataFrame以表的形式写入spark中的HDFS，而不是大量的空文件或小文件。

、

of SparkSession import spark.implicits._ val wordsDataFrame = rdd.map(w => Record(w)).to

浏览 0提问于2017-11-17得票数 1

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.s

浏览 2提问于2017-02-26得票数 2

1回答

星火中的数据和数据集

、、

我是星火公司的新手，我正在浏览数据仓库和数据集。我试着理解它们之间的区别，但我很困惑。Q.1在链接上，它说Dataframe是 Dataset Row的别名，即Row类型的数据集如果Dataframe<

浏览 1提问于2019-02-15得票数 0

回答已采纳

1回答

如何将RDD[Row]转换回DataFrame

、、、

首先，我有一个类型为(Int，Int)的RDD，名为dataPair。然后，我使用以下命令创建了一个带有列标题的DataFrame对象：然后，我使用以下命令将其从DataFrame转换回RDD：它返回org.apache

浏览 1提问于2016-05-04得票数 11

回答已采纳

1回答

从Spark写入DynamoDB

、、、

我正在尝试使用spark从亚马逊s3获取一个文件(以DataFrame或RDD的形式)，执行一些简单的转换，然后将文件发送到DynamoDB上的一个表中。在阅读了其他一些论坛帖子后，我开始了解到读/写DynamoDB需要使用hadoopRDD -这与spark中的RDD不同-也不同于我检索s3文件的方式。我该如何将DataFra

浏览 0提问于2016-05-26得票数 7

1回答

我有一对RDD，它由(Key，(时间戳，Value))条目组成。读取数据时，条目按时间戳排序，因此RDD的每个分区都应按时间戳排序。我想做的是，找到每一个键，最大的差距之间的2个顺序时间戳。我已经思考这个问题很长时间了，我看不出这是如何实现的，考虑到火花提供的功能。我看到的问题是:当我做一个简单的地图时，我会丢失订单信息，所以这是不可能的。在我看来，groupByKey失败也是因为一个特定

浏览 1提问于2016-10-09得票数 0

回答已采纳

2回答

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

、、、、

考虑这里给出的代码， val training = sparkContext.parallelizelr = new LogisticRegression()假设我们使用我们是否应该继续这样做 val model1 = lr.fit(sparkContext.parallelize(t

浏览 0提问于2016-06-01得票数 14

回答已采纳

1回答

从任意长度csv列创建火花数据

、

我正在尝试从我的dataframe中的单个csv格式化列创建一个新的dataframe。我之前不知道模式，所以我尝试使用没有模式参数的spark.createDataFrame方法(类似于中的方法1)。我正在尝试下面这样的代码，但会引发异常： var csvrdd = df.select(df("Body").cast("string")).rdd</

浏览 6提问于2017-05-08得票数 0

回答已采纳

1回答

从列表行键创建Spark DataFrame

、、、、

我在表单或Array[Row]中有一个HBase行键的列表，并希望从使用这些RowKeys从HBase获取的行中创建一个Spark DataFrame。我在想像这样的东西： def getDataFrameFromList(spark: SparkSession, rList : Array[Row]): DataFrame = { val conf= HBaseConfiguration.c

浏览 15提问于2019-10-02得票数 1

回答已采纳

1回答

在将rdd转换为dataframe时使用mapPartitions的一个任务

、、、

我感到困惑的是，为什么在将得到的rdd.mapPartitions转换为DataFrame时，Spark似乎使用了1任务。)，将非SQL函数应用于数据块(mapPartitions on RDD)，然后转换回DataFrame，以便我可以使用DataFrame.write进程。我可以从DataFrame -> mapPartitions开始，然后使用像sav

浏览 4提问于2016-11-22得票数 17

回答已采纳

1回答

如何在spark* scala中读取文件时从文件中删除页脚*

、

我正在尝试在读取文件时从文件中删除页脚。是否有类似"footer“= "true”的选项。

浏览 8提问于2019-10-11得票数 0

1回答

如何从列表中创建spark数据帧

、

，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myList)来创建一个RDD 但是，我也不能选择该行的特定元素：sc.parallelize(myLi

浏览 2提问于2018-09-26得票数 1

1回答

Spark:加载或选择ORC格式的配置单元表

、、、、

我正在尝试加载一个用spark sql以ORC格式创建的托管配置单元表。DataFrame.scala:2086) at org.apache.spark.sql.DataFrame.org$apache$<

浏览 21提问于2017-04-20得票数 3

2回答

pyspark dataframe* to dictionary:列作为键和列值列表*

、

您好，我需要将pyspark dataframe (或rdd)转换为字典，其中dataframe的列将是关键字，column_value_list将作为字典值。name amtb 20b 40我想要一本这样的字典： new_dict = {'name':['a','b', 'a', 'b', 'c'], 'amt

浏览 4提问于2017-04-28得票数 1

3回答

检查类型:如何检查是RDD还是DataFrame？

、、、、

我使用的是Python，这是一个Spark RDD / DataFrame。我正在编写一个函数，其中RDD和DataFrame都可以传入，所以如果传入了DataFrame，我将需要执行input.rdd来获取底层的RDD</em

浏览 1提问于2016-04-20得票数 11

回答已采纳

1回答

如何使用listOfData和模式创建spark DataFrame

、、

我正在尝试从数据列表创建一个DataFrame，并希望在其上应用模式。在Spark Scala文档中，我尝试使用这个接受行列表和模式作为StructType的createDataframe签名。def createDataFrame(rows: List[Row], schema: StructType): DataFrame 下面是我正在尝试的示例代码 import org.apache.spark.sql.types> (rdd<

浏览 36提问于2020-10-01得票数 0

回答已采纳

1回答

在码头集装箱齐柏林飞艇运行火花时未发现lzo

、、、

同样的问题与齐柏林飞艇嵌入式火花和从我自己安装的火花外壳(1.6.3) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(Dat

浏览 0提问于2016-12-30得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云