使用flatMap实现结构的Spark -flatMap数组

文章/答案/技术大牛

发布

2回答

scala、apache-spark

我有一个带模式的df - root | |-- element: struct (containsNull = truenullable = true) |-- runtime: string (nullable = true) 我不想使用我试过了- val ds = df1.as[(Array[StructType], String, String)] ds.flatMap</e

浏览 50提问于2020-11-22得票数 0

3回答

如何在星火中解析字符串到数组？

arrays、json、apache-spark

如何在Spark2.2.0中将String数组扁平化为多行数据？inputDS.show(false) -----预期输出数据集outputDS-------"bar" |inputDS.select(explode(from_json(col("value"), ArrayType(StringType))))

浏览 4提问于2017-10-09得票数 3

回答已采纳

1回答

如何在JavawithSpark2.1中使用lambda flatMap()

java、python-2.7、apache-spark、apache-spark-sql、flatmap

我正在将Python应用程序移植到Java，并坚持正确的实现Lambda flatMap()的方法。我正在通过IP日志进行解析，需要在“”(空间)上拆分。我的环境：加载数据文件： Dataset<Row> MyLog = spark.sql("Select<String> Mylog2 = Mylog.flatMap(e -&g

浏览 0提问于2019-02-05得票数 1

1回答

在Clojure中编写Spark结构化流式处理示例时出错

scala、apache-spark、clojure、spark-structured-streaming、flambo

我正在尝试用Clojure重写Spark结构化流媒体示例。示例使用Scala编写，如下所示： (:import [org.apache.spark.sql Encoders SparkSessionDataset Row] )) (-> (SparkSessio

浏览 0提问于2017-10-10得票数 4

1回答

复制Spark* Dataset中的行N次*

scala、apache-spark

当我尝试在Spark中做这样的事情时： val replicas = 10 at scala.collection.immutable.List.flatMap(List.scala:344) at org.apache.spark.sql.catalyst.ScalaReflectionorg.apache.<em

浏览 16提问于2019-02-28得票数 0

回答已采纳

3回答

不使用flatMap实现flatMap效果

java、java-stream

我有一个定义开发者的类。我使用flatMap完成此操作，如下所示：有没有办法在不使用flatMap的情况下通过Stream实现这一点呢？

浏览 1提问于2016-10-23得票数 0

1回答

快速自定义flatMap实现导致错误泛型参数无法推断

swift、generics

我试图在包含一些泛型项的结构上实现一个自定义flatMap。flatMap将使用提供的转换函数对项进行Swift.flatMap处理。这里的代码有点做作，但它困扰着我，为什么标准库版本不会导致错误，而我的版本会导致错误。在flatMap的实现中有什么东西我遗漏了吗 let items:

浏览 1提问于2017-07-14得票数 0

回答已采纳

8回答

map和flatMap之间的区别是什么，它们的一个很好的用例是什么？

apache-spark

谁能给我解释一下map和flatMap之间的区别，以及它们最好的用例是什么？ “扁平化结果”是什么意思？它有什么好处？

浏览 134提问于2014-03-12得票数 285

回答已采纳

3回答

使用scala计算数组中每个单词的长度

scala、apache-spark

我有下面这样的数据。在一个数组中，我们有不同的单词x: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[9] at flatMap at <console>:26 res41: Array[String] = Array(Roses, are, red, Violets, a

浏览 2提问于2019-11-26得票数 0

1回答

它看起来像是map和flatMap返回不同的类型。org.apache.spark.rdd.RDDorg.apache.spark.sql.Row mySchamaRdd.map( p => Row.fromSeq(...))返回applySchema函数所需的applySchema函数(或Spark1.3中的createDataFrame )。但是，org.apache.spark.rdd.RDDAny返回mySchamaRdd.fla

浏览 4提问于2015-03-31得票数 0

回答已采纳

1回答

"Value toSeq不是scala.util.Either可序列化产品的成员“？

scala、apache-spark、either

我有一个文本文件的RDD，我想解析它。我通过在它们上映射一个函数来实现这一点，该函数返回Either[String, Book]，其中Book是解析产生的结构化类型，或者String是无法解析的文本。on Either provides empty Seq for Right and one-element Seq for Left val right: RDD[R]

浏览 0提问于2018-04-01得票数 2

回答已采纳

1回答

spark 1.6.1与kafka 0.8.2.1的集成

scala、apache-spark、apache-kafka、spark-streaming

使用kafka_2.10-0.9.0.1val kafkaStreams = KafkaUtils.createDirectStream[String"127.0.0.1:9092", Set("tweets")获取异常的方式为at scala.util.Either$Righ

浏览 3提问于2017-05-16得票数 1

1回答

我怎样才能阻止这个星火平面图，它返回了大量的结果，但在写作上失败了？

apache-spark、apache-spark-sql、flatmap

我使用一个平面映射函数将绝对庞大的XML文件分割成(数万个)较小的XML字符串片段，我想将这些片段写入Parquet。为了给您一种感觉，下面是flatMap中使用的类，还有一些伪代码。请注意，这个类返回一个Iterable --我曾希望这个Iterable允许Spark流来自flatMap的结果，而不是(我怀疑)在编写它之前将其全部保存在内存中： class XmlIterator(堆栈跟踪的一部分告诉我，在编写之前

浏览 7提问于2022-11-04得票数 0

3回答

在Spark2.0中从用逗号分隔的字符串行中获取不同的项

java、scala、apache-spark、data-science

我正在使用Spark2.0来分析一个数据集。有一列包含如下字符串数据：A,BB我希望得到一个包含列中所有不同项的JavaRDD，如下所示：B如何在火花中有效地做到这一点？我在Java中使用Spark，但是Scala示例或指针是有用的。编辑:我尝试过使用flatMap，但是我的实现非常慢。JavaRDD<String> d = dataset.flatMap

浏览 6提问于2016-10-13得票数 2

回答已采纳

2回答

如何使用flatMap来扁平元组的一个组件

scala、apache-spark

我想要输出就像(a,c)我正在尝试使用flatMap来实现这个目标，但没有取得任何成功。在这种情况下，就连地图也帮不上忙。输入数据：Chap01:You can easily learn SparkChap02:You can easily learn Spark and Hadoopval ra

浏览 0提问于2019-04-10得票数 1

回答已采纳

1回答

如何在Spark中收集单个列？

apache-spark、dataframe、pyspark、apache-spark-sql

不幸的是，在我转换该列之后，它现在不再是数据帧的一部分，而是一个列对象。因此，它不能被收集。call last):TypeError: 'Column' object is not callable 如何在单个列上使用

浏览 0提问于2016-02-19得票数 15

回答已采纳

1回答

使用Spark 2.1.0的Java中的FlatMap

java、apache-spark、spark-streaming

我正在尝试使用Java8中的spark 2.1.0进行flatMapJavaDStream<String> words = lines.flatMap(x -> Arrays.asList(x.split(" ")).iterator());Error:(31, 25) java: method flatMap in class org.apache.spark</

浏览 0提问于2017-07-21得票数 1

2回答

运行在星火阵上的Scala函数是否并行化？

scala、apache-spark

要将函数映射到RDD的所有元素，需要首先使用collect方法将RDD转换为Array类型：x: org.apache.spark.rdd.RDD[List[String]] = ParallelCollectionRDD[1] at parallelizeconsole>:12 scala>

浏览 3提问于2014-05-21得票数 2

回答已采纳

1回答

如何访问由--文件指定的文件？

scala、apache-spark、apache-spark-sql

我正在尝试在derp.csv中阅读--files指定的内容，但没有找到路径。做什么？spark2-shell --master yarn --files derp.csvorg.apache.spark.sql.AnalysisException:241) at scala.collection.TraversableLike$$anonfun$flatMap$

浏览 2提问于2018-03-20得票数 2

回答已采纳

1回答

传递以任何case类返回类型作为参数的函数。

scala、apache-spark、dataframe、case-class、classtag

我希望将一个flatMap (或映射)转换函数传递给一个函数参数，然后将其代理到一个实际调用df.rdd.flatMap方法的策略函数中。我会尽力解释的！) } ... write logic ...}class SparkEntityStrategy(private val entity: Ent

浏览 1提问于2019-02-22得票数 3

点击加载更多