spark take_Spark:从RDD、.take()或.filterByRange()中获取N个元素？_为什么spark dataframe.take抛出异常不兼容的类型？ - 腾讯云开发者社区

、、

目前我正在做的是：big_sorted_rdd_without_small_array = big_sorted_rdd.subtract

浏览 1提问于2016-09-06得票数 0

1回答

如何在spark-shell / pyspark中打印出RDD的代码片段？

、

当在spark-shell中工作时，我经常想检查RDDs (类似于在unix中使用head )。scala> val linesContainingSpark = readmeFile.filter(line => line.contains("Spark")) scala> // how to

浏览 1提问于2015-06-29得票数 7

回答已采纳

1回答

方法未在Microsoft.Spark中的Take方法上实现异常

、、、

我正在尝试使用新的Microsoft.Spark库设置spark。DataFrame.PrintSchema方法工作得很好，但是DataFrame.Take()方法给出了一个System.NotImplementedException。我查看了源代码，发现'Take‘方法调用了collect方法，但在调用collectToPython时失败了。SparkSession spark = SparkSession .AppName(".NET

浏览 14提问于2019-05-10得票数 0

1回答

火花误差ReduceByKey

、、、、

print(type(data_test_bis))print(data_test_bis.keys().take(10))结果：[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]print(data_test_bis.reduceByKey(add).taket

浏览 1提问于2017-01-03得票数 0

回答已采纳

1回答

在spark函数中创建本地数据的错误

、

localSpark.sparkContext.parallelize(pubDataIt.toList) // in real instead of takethere will be ML based logic that need to be executed on localDF } res.write.mo

浏览 6提问于2021-01-13得票数 0

3回答

PySpark: TypeError:条件应为字符串或列

、、、、

我正在尝试过滤RDD，如下所示：spark_df.filter(lambda r: str(r['target']).startswith('good'))但是得到了以下错误：<ipython-input-8-86cfb363dd8b> in <module&g

浏览 2提问于2016-10-06得票数 18

1回答

耗时的JavaRDD方法take()

、、、

如何处理JavaRDD - take()提供的耗时的方法 Instant startInit = Instant.now();List<Foo> fooList = fooJavaRDD.takeSystem.out.println("Init: " + Duration.bet

浏览 20提问于2020-04-17得票数 1

1回答

RDD.take不工作

、、

当我输入以下命令时：它将输出：但是，当我想使用spark-submit加载python文件时： logFile = "/home/sydridgm

浏览 0提问于2016-04-09得票数 2

回答已采纳

1回答

如何将Iterable <com.datastax.driver.core.Row>转换为Dataset？

、、、

我一直在尝试使用这个连接器：后来也是这样：rdd.take(10).foreach(println) 在这两种情况下，

浏览 5提问于2017-06-08得票数 1

回答已采纳

1回答

Apache Spark* - map和filter and take(1)*

、

我知道map和filter转换的用法，但我想澄清一些事情，map逐个更改rdd的每个元素的内容，如果我使用myrdd.map().filter().take(1)当第一个元素通过filter函数时，map

浏览 1提问于2020-10-07得票数 0

1回答

存在火花数据的性能问题

这是推荐的，以及为什么性能方面的spark.dataframe.count()或spark.dataframe.take(1)。

浏览 1提问于2019-02-06得票数 0

回答已采纳

2回答

Pyspark“PipelinedRDD”对象没有属性“show”

、

I我想找出df中不在df1中的所有项目，以及df1中但不在df中的项目 df1=sc.parallelize([4 ,5 ,6,7,8,9,10]) df2.show() df3.show()

浏览 0提问于2016-12-15得票数 14

1回答

是什么决定了spark应用程序中的作业数量

、

以前我的理解是，一个动作会在spark应用程序中创建一个职位。但是让我们看看下面的场景，其中我只是使用.range()方法创建一个数据帧因为我的spark.default.parallelism是10，所以结果数据帧是10个分区现在我只是在数据帧上执行.show()和.count()操作df.count() 现在，当我检查了spark历史记录时，我可以看到.show()的3个作业和.count()的1个作业我读过一些文章，其中.show()最终将在内部调用.<e

浏览 1提问于2021-03-24得票数 0

2回答

为什么foreach没有给驱动程序带来任何东西？

我用spark shell写的这个程序array.foreach(x => println(x))for(num <- array.take(4)) {}我怎样才能使rdd上的fore

浏览 0提问于2015-03-02得票数 15

回答已采纳

1回答

为什么PySpark会出现随机的“套接字关闭”错误？

、

我尝试过设置spark.executor.memory和spark.executor.heartbeatInterval，但是错误仍然存在。我还尝试将.cache()放在不同行的末尾，没有任何更改。$WriterThread$$anonfun$run$3$$anonfun$apply$4.apply(PythonRDD.scala:344) at org.apache.spark

浏览 6提问于2016-09-21得票数 14

1回答

RDD take()方法在内部是如何工作的？

、、

我知道take(n)将返回RDD的n个元素，但是Spark如何决定从哪个分区调用这些元素，以及应该选择哪些元素？它在内部维护Driver上的索引吗？

浏览 14提问于2019-03-22得票数 0

2回答

星星之弹Scala XML如何连接属性

、

scala> val fileRead = sc.textFile("source_file")res1: Array[String]] = MapPartitionsRDD[35] at map at <console>:2

浏览 1提问于2015-12-09得票数 0

回答已采纳

3回答

纱线模式下的星火RDD映射不允许访问变量？

、、

准确地说，下面的测试代码import org.apache.spark.SparkContext._val data = sc.parallelize(a)transform.take(3) foreach (println _)

浏览 5提问于2015-03-14得票数 1

回答已采纳

1回答

如何在Spark* & Elasticsearch中迭代hadoop MapWritable*

、、

我对Spark和Scala都不熟悉。我在网上读过一些文章。我使用Spark成功地从Elasticsearch获得了文档，但我被如何从文档中提取字段所困扰。res11: Long = 33617 {@version=1, field1=a, ...}scala> esRDD.take(5).foreach(row => println(row._2("field1"))) e

浏览 0提问于2016-03-11得票数 0

2回答

不使用case类的scala的星星之火asDict()

、、

t=spark.sql("SET").withColumn("rw",expr("row_number() over(order by key)")).collect()[0].asDict()local-1594577194330我也在试着用斯卡拉-火花。,local-1594580739413,1)local-1594580739413在实际问题中，我几乎有200+列，不想使用case类方法。val

浏览 2提问于2020-07-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark - Take和Subtract

如何在spark-shell / pyspark中打印出RDD的代码片段？

方法未在Microsoft.Spark中的Take方法上实现异常

火花误差ReduceByKey

在spark函数中创建本地数据的错误

PySpark: TypeError:条件应为字符串或列

耗时的JavaRDD方法take()

RDD.take不工作

如何将Iterable <com.datastax.driver.core.Row>转换为Dataset？

Apache Spark* - map和filter and take(1)*

存在火花数据的性能问题

Pyspark“PipelinedRDD”对象没有属性“show”

是什么决定了spark应用程序中的作业数量

为什么foreach没有给驱动程序带来任何东西？

为什么PySpark会出现随机的“套接字关闭”错误？

RDD take()方法在内部是如何工作的？

星星之弹Scala XML如何连接属性

纱线模式下的星火RDD映射不允许访问变量？

如何在Spark* & Elasticsearch中迭代hadoop MapWritable*

不使用case类的scala的星星之火asDict()

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐