从spark数据帧返回Array[String]的有效方法，无需使用collect()

文章/答案/技术大牛

发布

1回答

scala、apache-spark、apache-spark-sql

我想从下面的数据框中以Array[String]的形式返回child root |-- child: array(nullable = true) | |-- element: string (containsNull = true) 我目前正在做这件事，它确实对较少的数据有效 df.<e

浏览 38提问于2020-10-26得票数 0

2回答

将文本文件加载到Spark上下文时跳过缺少字段的行

scala、apache-spark、csv

我需要将一个制表符分隔的文件加载到Spark上下文中。但是，有些字段缺少值，我需要过滤掉这些行。我正在使用下面的代码。但是，如果完全缺少该字段(例如，行中少了一个制表符)，则此代码将抛出异常。实现这一目标的更好方法是什么？

浏览 14提问于2016-08-10得票数 0

回答已采纳

2回答

pyspark.sql到JSON

json、pyspark

从pyspark.sql查询中获取有效json文档的最佳方式是什么？例如，如果我运行：我看到它返回一个数据帧，我可以在上面调用'toJSON‘来获取一个RDD。但我找不到一种好的方法将其转换为json文档。我对它调用了'collect()‘，但它没有返回有效的json，而且

浏览 19提问于2019-08-23得票数 0

回答已采纳

2回答

pyspark dataframe to dictionary:列作为键和列值列表

python、pyspark

您好，我需要将pyspark dataframe (或rdd)转换为字典，其中dataframe的列将是关键字，column_value_list将作为字典值。name amtb 20b 40我想要一本这样的字典：我该

浏览 4提问于2017-04-28得票数 1

1回答

我的json文件类似于下面的代码，我正在尝试使用以下代码读取majorsector_percent下的所有名称。majorsector_percent from logs limit 1 ").map(row -> new Tuple2<>(row.getString(0), row.getString(1))).collect如何处理这种情况以及如何知道模式： java.lang.ClassCastException: scala.collection.mutable.ArrayBuffer不

浏览 0提问于2016-04-06得票数 1

2回答

AttributeError: spark databricks中的文本文件没有“”show“”属性“

python、apache-spark、pyspark

from pyspark import SparkContext, SparkConf, sql text_file = sc.textFile('/FileStore/tables/data.txt').show()

浏览 13提问于2021-04-05得票数 0

1回答

是否有一种方法可以使用名称不同于part的scala导出spark* 3.0.1中的csv或其他文件？

scala、apache-spark、export-to-csv

数据来自两种不同的数据格式。名称是"borrowersTable“和”loansTable“。它们是用"createOrReplaceTempView”选项创建的，这样就可以对它们运行sql查询。目标是在两个维度(性别和部门)上创建多维数据集，汇总图书馆借书的总数量。：然后使用以下命令 cube.write.format("csv").save("file:///......&#

浏览 0提问于2020-12-06得票数 0

回答已采纳

3回答

spark Dataset中的类型安全是什么意思？

apache-spark、apache-spark-sql

我试图理解Dataset和data frame之间的区别，并找到了以下有用的链接，但我不能理解什么是类型安全？

浏览 1提问于2018-03-23得票数 4

1回答

Pyspark将列表转换为特定列中的字典

pyspark、aws-glue、aws-glue-spark

我有一个在json中看起来像这样的spark数据帧； { "region": "Texas", {|-- region: s

浏览 19提问于2021-09-21得票数 0

回答已采纳

3回答

在Apache Spark中的groupBy之后聚合Map中的所有列值

scala、apache-spark、apache-spark-sql

RDD已经做到了，但它并不是真正的可读性，所以当涉及到代码可读性时，这种方法会更好。取这个初始的和结果的DF，包括开始的DF和我希望在执行.groupBy()之后获得的结果。case class SampleRow(name:String, surname:String, age:Int, city:String) .groupBy(

浏览 97提问于2019-09-04得票数 1

8回答

map和flatMap之间的区别是什么，它们的一个很好的用例是什么？

apache-spark

谁能给我解释一下map和flatMap之间的区别，以及它们最好的用例是什么？ “扁平化结果”是什么意思？它有什么好处？

浏览 134提问于2014-03-12得票数 285

回答已采纳

1回答

为什么我无法读取这些数据帧

apache-spark、apache-spark-dataset、apache-spark-2.0

我在读取几个数据帧时遇到了问题。我有这个功能 def readDF(hdfsPath:String, more arguments): DataFrame = {//function goes here} 它获取分区的hdfs路径并返回一个数据帧(它基本上使用spark.read.parquet，但我必须使用它)。map操作中执行spark.read.parquet，因为如果我更

浏览 10提问于2019-01-10得票数 0

回答已采纳

2回答

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

apache-spark、cassandra、apache-spark-sql、spark-structured-streaming、spark-cassandra-connector

我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据，并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是，我如何使用输入数据帧(kafka)中的数据，作为cassandra中的"where“参数"select”，而不会出现以下错误： Exception in t

浏览 25提问于2021-05-24得票数 0

回答已采纳

2回答

我们可以将数据库中的数据帧转换为字符串吗?为什么我们会得到错误查询，而流源必须使用writeStream.start()执行

scala、apache-spark-sql、databricks

我选择的列是一个数据框。我想将它转换为一个字符串，这样它就可以用来构建cosmos DB动态查询。数据帧上关于查询流来源的collect()函数必须用writeStream.start()执行；； .select("*").filter($"xyz" === "abc") DF.createOrReplaceTempView("MyTable&qu

浏览 18提问于2020-05-16得票数 0

1回答

Apache Spark* 2.3.0 -如何将两个array<*string>合并成一个array<string>

apache-spark、apache-spark-sql、spark-java

将两个array<string>合并成一个array<string>在2.4.x版本中是可能的，也很容易，但在2.3.0版本中找不到这样做的方法。输入-预期输出-有人能解释一下如何使用Java在Spark中实现这一点吗？

浏览 9提问于2021-09-22得票数 1

1回答

从列表行键创建Spark* DataFrame*

scala、apache-spark、apache-spark-sql、hbase、rdd

我在表单或Array[Row]中有一个HBase行键的列表，并希望从使用这些RowKeys从HBase获取的行中创建一个Spark DataFrame。我在想像这样的东西： def getDataFrameFromList(spark: SparkSession, rList : Array[Row]): DataFrame = { }

浏览 15提问于2019-10-02得票数 1

回答已采纳

2回答

获取Spark* Dataframe中特定单元格的值*

apache-spark、dataframe、pyspark、apache-spark-sql

我有一个Spark数据帧，它有1行3列，即start_date，end_date，end_month_id。start_date = df1[0];我是个菜鸟，所以请放轻松点

浏览 0提问于2019-03-02得票数 3

1回答

如何使用Spark* streaming将数据从Kafka插入到Kudu*

apache-spark、apache-kafka、spark-streaming、apache-kudu

我有一个可以收听Kafka主题的Spark流媒体应用程序。当获得数据时，我需要对其进行处理，并将其发送到Kudu。目前，我正在使用org.apache.kudu.spark.kudu.KuduContext API，并对数据框调用插入操作。为了从我的数据创建数据框，我需要调用collect()，以便可以使用sqlContext创建数据框。有没有一种方法<

浏览 7提问于2018-08-08得票数 1

2回答

通过内部数组的索引高效地连接数组的数组RDD

scala、apache-spark、rdd

我正在使用Databricks运行一个使用Scala (v2.12)的Spark集群(v3.0.1)。我将Scala文件编译为JAR，并使用Databricks UI中的spark-submit运行作业。该函数的返回类型为Array[Array[Double]]。因此，在Scala中，它将如下所示： val result = myListRdd.map(f(_, ...<more-args&g

浏览 23提问于2021-02-12得票数 1

回答已采纳

3回答

如何从pyspark中的dataframe列中获取第一个值和最后一个值？

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有数据帧，我想从Dataframe列中获取第一个值和最后一个值。0.09523809523809523|+----+-----+--------------------+ 预期输出来自support列的第一个

浏览 4提问于2019-06-04得票数 3

回答已采纳

点击加载更多