spark中的迭代过滤器似乎不起作用

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我试图逐个删除RDD的元素，但这不起作用，因为元素重新出现。下面是我的代码的一部分： rdd = spark.sparkContext.parallelize([0,1,2,3,4]) rdd=rdd.filter(=i) print(rdd.collect()) [0, 1, 2, 3] 所以看起来最后一个过滤器是“记住”。我在想，在这个循环之后，rdd应该是空的。然而，我不明白为什么，每次我将filter获得的<

浏览 27提问于2021-01-20得票数 1

回答已采纳

1回答

在使用Spark* web框架时，如何使用本地Servlet过滤器？*

、、、

我正在使用 ( Java web框架，而不是Apache Spark)。我发现定义路由和过滤器真的很容易，但是我希望将本地servlet过滤器应用于我的路由，但似乎找不到这样做的方法。更具体地说，我想使用，它是一个servlet过滤器(与Spark过滤器定义形成对比)。因为Spark使用的是embedded Jetty，所以我没有注册DoSFilter的web.xml。然而，<e

浏览 6提问于2015-09-17得票数 6

1回答

火花过滤器未按预期工作..“‘Column”对象不可调用

、、、、

当在Spark Dataframe上的过滤器中使用"and“子句时，它返回Spark.SQL.Column而不是Spark Dataframe。但在一个条件下，它工作得很好。如何show()或迭代通过Spark Sql列对象？尝试show()函数时抛出错误- 'Column' object not callable.或者如何将Spark.SQL.Column转换为Spark Dataframe？或者如何在

浏览 1提问于2019-04-23得票数 0

1回答

在火星雨上算了两次，也许我不懂懒散？

、、

自从上次使用spark太久了，我再次使用Spark3.1，下面是我的问题:我还有2000万行加入400米行，原始代码是：for time当查看星火历史服务器上的可视化SQL图时，我的改进解决方案(?)在第二个联接中，它在每次迭代时再次使用整个左联接，而不是使用更干净、更轻的DataFrame。我的最后一个想法是在下一次迭代中使用新的d

浏览 1提问于2021-08-28得票数 1

1回答

是否可以使用DataFrames过滤Spark来返回列表中列值所在的所有行？

、、

如果某列的值在指定的列表内，我如何才能只返回Spark DataFrame的行？下面是我的Python pandas执行此操作的方法：我看到了scala的实现，并尝试了几种排列方式，但都不能正常工作。下面是使用pyspark完成此操作的一次失败尝试： d

浏览 17提问于2017-03-14得票数 5

回答已采纳

1回答

带有JSON键的AWS CloudWatch日志度量过滤器有字符空间

、

当创建一个AWS CloudWatch日志度量过滤器时，如何匹配JSON事件中的术语，其中键在名称中有一个字符空间？如何引用“火花版本”？$."Spark Version"、$.Spark</em

浏览 0提问于2018-09-17得票数 9

回答已采纳

1回答

SparkSQL :对于jdbc数据源有"filterPushdown“特性吗？

、

我正在使用Spark2.3，并从MySQL表中加载数据。我想知道是不是有一个类似于镶木地板文件的功能"filterPushdown“。我有一个大表，其中有数百万行，我需要加载与某些键和timestamp > certian_timestamp匹配的部分数据。我可以使用"filterPushdown“和类似于"joinPushdown”的东西在数据库中实现这些操作(过滤和连接)吗?？(如果存在)

浏览 26提问于2018-12-26得票数 0

1回答

使用KeycloakOIDCFilter与Spark无法配置

、、、、

我们在火花违约中：这是成功的，星火主日志显示此过滤器应用于所有URL<param name>=<value>的配置项，例如： spark.ui.filters=com.test.filter1 spark.com.test.filter1.param.name1=foospark.com.test

浏览 10提问于2022-03-29得票数 5

回答已采纳

2回答

基于具有交集的外部数组过滤数据数组项

、

我试图在DFs中定义一种从WrappedArrays中筛选元素的方法。过滤器基于外部元素列表。val df = sc.parallelize(Array((1, Seq("s", "v", "r")),(2, Seq("r", "a", &quo

浏览 0提问于2019-05-14得票数 3

回答已采纳

1回答

当通过RDD迭代器迭代时，Spark似乎不调用hasNext，并且应用了一个限制

、、、

我在Spark中有一个定制的RDD (使用Scala)，它负责从数据库连接中缓冲流。最初，我将清理代码放在我返回的迭代器的“hasNext”中，在

浏览 0提问于2018-07-12得票数 2

回答已采纳

1回答

为什么有人要在Tez上运行Spark* / Flink？*

、、、、

在Saha等人的中，显示了具有Tez的Hadoop2的以下模块化体系结构：为什么有人要在Tez上运行Spark/Flink？其优势是什么？更好地利用纱线？

浏览 0提问于2016-09-09得票数 8

1回答

Kerberized集群中的Spark* History服务器身份验证*

、、、

我设置了一个HDP集群，其中包含Spark。我还为集群启用了Kerberos，这样所有服务和用户都必须通过他们的主体进行身份验证。这似乎运行得很好，所有服务都在运行，用户必须获得有效的Kerberos票证才能访问YARN ResourceManager的Web UI。我现在想要做的(我想已经是了)，就是像这样保护Spark History Server UI，这样用户就必须通过Kerberos票据进行身份验证。实际上，每个人都可以在没有身份验证的情况下

浏览 10提问于2017-01-12得票数 4

1回答

如果会话停止，星火上下文会发生什么情况？

如果我停止一个名为spark和spark.stop()的现有火花会话，它的上下文会发生什么变化？它也会自动被杀死吗？我之所以问这个问题，是因为我接手了一些代码，上面写着：sc.stop() 我想知道我是否需要第二个命令。

浏览 0提问于2019-05-14得票数 0

回答已采纳

2回答

基于两个条件spark和Java的筛选列

、

我试图在我的数据帧上添加一个过滤器，由于某些原因，||条件在Java中不起作用，它在Scala中工作得很好。代码甚至不能编译。在java中如何在过滤条件中使用||运算符The operator || is undefined for the argument type(s) org.apache.spark.sql.Column, org.apache.spark.sql.Column df.filter((df.col("e

浏览 6提问于2018-08-01得票数 0

回答已采纳

2回答

星火如何执行连接+过滤器？是可伸缩的吗？

、、、

假设我有两个大的RDD，A和B，包含键值对。我想用键加入A和B，但是在匹配的配对(a，b)中，我只想要一小部分“好”的。所以我做了连接，然后应用了一个过滤器：其中isGoodPair是一个布尔函数，它告诉我一对(a，b)是否好。为了更好地扩展，Spark的调度程序将理想地避免显式地形成A.join(B)中的所有对。即使在大规模分布的基础上，这也可能导致耗时<

浏览 7提问于2015-12-04得票数 3

回答已采纳

1回答

在SparkJava中为静态文件添加“Add”过滤器

、

我在应用程序中指定了静态文件的位置：现在，我想为某些文件添加一个筛选器(例如，出于安全目的)，但它不起作用：换句话说，Spark保护静态文件(如管理页模板)在没有身份验证的情况下不被公开的最佳实践是什么？

浏览 4提问于2016-07-01得票数 9

回答已采纳

1回答

星星之火不利用hdfs分区与地板

、、、、

r.getString(3))) filteredData.collect() 我认为，Spark将利用文件的分区，只读取"thingId = 1“的分区。事实上，Spark确实读取了文件的所有分区，而不仅仅是已过滤的分区(带有thingId=1的分区)。当我看这些文档时，星火应该知道基于过滤器，它

浏览 2提问于2016-03-21得票数 5

回答已采纳

2回答

如何将DataFrame的所有行存储到本地值(例如并发队列)？

、、

我正在尝试迭代我从使用Spark执行结构化查询时获得的Row(吡火花)。() pickle.PicklingError:无法序列化对象: AttributeError：'builtin_function_or_method‘对象没有属性'co

浏览 0提问于2018-02-27得票数 0

回答已采纳

1回答

从KuduRDD中过滤发生在Spark应用程序本地还是在Kudu服务器中？

、

如果我在KuduRDD上执行过滤器，那么首先Spark作业从Kudu表中读取所有数据并在Spark应用程序中执行过滤器作业，或者过滤发生在Kudu服务器上，而Spark应用程序只接收过滤后的数据？

浏览 2提问于2018-01-21得票数 0

1回答

对从Kafka读取的spark* streaming数据帧执行多个过滤操作的最佳方式是什么？*

、、、

我需要对从Kafka主题读取的DataFrame应用多个过滤器，并将每个过滤器的输出发布到外部系统(就像另一个Kafka主题)。我读过这样的kafkaDF .format("kafka")

浏览 4提问于2021-04-29得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云