Spark UDF未正确给出滚动计数

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我有一个Spark UDF来计算列的滚动计数，精确的wrt时间。如果我需要计算24小时的滚动计数，例如，对于时间为2020-10-02 09:04:00的条目，我需要回顾到2020-10-01 09:04:00 (非常精确)。如果我在本地运行，那么Rolling count UDF工作得很好，并且给出了正确的计数，但是当我在集群上运行时，它给出了不正确的结果。我最好的猜测是数据分布

浏览 27提问于2020-10-21得票数 0

2回答

将累加器传递给spark udf

、、、

我想在我的udf中做一些计数。这样做的一种方法是将长累加器传递给udf，并在deserializeProtobuf函数的if else循环中递增累加器。但是不能让语法正常工作。有人能帮我吗？increment variable2 > else { }} val decode = udf

浏览 3提问于2021-03-23得票数 0

1回答

星火中UDF调用的计数

、、

使用Spark1.6.1，我想调用UDF的调用次数。import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.functions.udf val计数的正确方式，那么我还能怎么做呢？注:在我的实际火花-工作，得到一个电话<e

浏览 1提问于2016-10-29得票数 5

回答已采纳

1回答

如何在星火DataFrame API中重命名结构数组的元素

、、

我有一个UDF，它返回一个元组数组： Seq((1,2)) .printSchemaroot |-- test请注意，我知道返回一个案例类的Seq将

浏览 1提问于2017-07-13得票数 2

回答已采纳

3回答

如何在Pyspark中注册没有参数的UDF

、、、、

我已经使用lambda函数尝试了带有参数的Spark并注册了它。但是我如何创建不带参数和注册程序的udf呢?我已经尝试过了，我的示例代码将显示当前的时间。pyspark.sql.functions导入的日期时间 timevalue=datetime.now()但是PySpark显示 NameError: name 'TimestampType' is no

浏览 13提问于2016-12-26得票数 3

回答已采纳

2回答

在不计算的情况下获取星火数据中的行数

、、

目前，我正在使用函数count()计算每个转换后的行数，但每次都会触发一个未真正优化的操作。我想知道是否有任何方法可以知道行数，而不必触发比原始作业更多的操作。

浏览 1提问于2019-05-17得票数 4

回答已采纳

1回答

火花:关于句子的StringIndexer

、、、、

例如： (1, ["I", "like", "Spark"])我预期在StringIndexer之后的输出如下： (1,

浏览 3提问于2017-12-06得票数 1

回答已采纳

2回答

在spark_apply()函数sparklyr中应用具有多个参数的自定义函数

、、、

现在，我想将这个UDF应用于spark数据帧。searchwithk <- function(x,y,k) { function(df) search(df,x,y,k) searchwithk(df,x,y,k) return(res)x=12.12k=5 result=myfun(

浏览 0提问于2018-06-07得票数 0

2回答

按计数对collect_set进行排序

、、

是否有不同的方法按计数排序collect_set？我希望基于一个独立id列的组，为单个列提供一个最受欢迎的项数组。您会有一个collect_list，然后对其进行计数吗？

浏览 5提问于2021-09-29得票数 1

回答已采纳

1回答

分组记录后计数单词

我有一个数据框架，其中包括有标签的文件，如本文件： ('1', 'hello how are are you today'),('4', 'hello how is it you today')我想要的是通过label对数据框架进行分组，并对每个组进行简单的单词计数= F.udf(get_toke

浏览 0提问于2018-04-19得票数 1

回答已采纳

1回答

如何将星火模式应用于星火结构化流中基于Kafka主题名的查询？

、、、

当从Kafka流数据时，我想根据主题名称将Spark模式应用于Kafka消息。var df = spark.readStream .option("kafka.bootstrap.servers.writeStream.outputMode("append")

浏览 3提问于2020-04-29得票数 0

3回答

火花持续30天过滤，提高性能的最佳方法

、、、、

我有一个记录的RDD，转换为DataFrame，我希望按日时间戳进行过滤，并计算最后30个每日统计数据，按列过滤并计算结果。Spark在进入for循环之前是非常快的，所以我想知道这是否是一种反模式的方法，我如何才能做到它有良好的性能，我应该使用火花笛卡尔，如何？

浏览 7提问于2016-06-15得票数 3

回答已采纳

2回答

Spark Build自定义列函数，用户定义函数

、、

inputArray(i) maxValue这就是到目前为止我所知道的，并得到这个错误 maxValue = col(i)maxValue一旦我能够实现我自己的方法，我将创建一个列函数 val value_max:org.apache.spark.sql.Column我要做的计算将会比这复杂得多(例如，我将比较列中的每个元素)，我是在正确</e

浏览 2提问于2016-04-11得票数 19

回答已采纳

1回答

对于同一外部表，Count()在spark.sql()和配置单元中给出不同的值*

、、

我们正在装入如下表格 spark.sql("INSERT OVERWRITE target_table select * from DF_made_from_stage_table") 现在，当我通过spark和直接配置单元CLI检查了目标表的计数(*)时，两者给出了不同的计数在spark中： spark.sql("select count(1) from target") -- giving 50K records在配置单元

浏览 20提问于2019-04-28得票数 0

1回答

如何使火花放电使用自定义python？

、、

重新启动火花和齐柏林飞艇 %spark.pyspark 从pyspark.sql.functions pandas_udf，PandasUDFType @pandas_udf(df.schemaPandasUDFType.GROUPED_MAP) def process_order_items(Pdf)进口熊猫为pd : pdf.loc:，total_price= pdf'price‘*pdf’d={‘has_def’：‘计数’，‘清关’：‘计数’，‘计数’，&#

浏览 2提问于2018-09-05得票数 2

1回答

Spark子句中谓词的求值顺序

、、

我试图理解Spark中谓词计算的顺序，以提高查询的性能。

浏览 0提问于2021-02-02得票数 2

回答已采纳

1回答

来自csv计数的Spark数据帧，返回错误结果

、、、、

我在Spark2.2中打开了几个"csv“文件，但当我做”计数“时，它返回了10000000的记录，而实际上它是6000000的记录，当我用python或Alteryx用Pandas检查它时，它给出了正确的数字scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("infer

浏览 4提问于2018-11-27得票数 0

1回答

如何在PySpark中将sql函数与UDAF组合/链接

、、、

我正在尝试在PySpark中的Spark dataframe上使用一组预定义的sql函数以及我自己的UDAF。@F.udf from collections import Counter当我尝试将我的自定义函数与其他函数一起使用时，我得到: org.apache.spark.sql.An

浏览 3提问于2019-11-15得票数 0

2回答

如何检查网页是否滚动？

、、、

在javascript中有没有办法检查网页是否被垂直滚动过？专门为Internet Explorer设计的吗？我需要在IE中获取鼠标位置，但使用jQuery event e.pageY时，它会在页面未滚动时给出正确的值，但当页面向下滚动时，它会给出错误的位置。

浏览 1提问于2010-06-19得票数 11

回答已采纳

2回答

Apache Spark* Count by Group方法*

、、、

我想使用Datastax和Spark获得Cassandra表中特定列(列"a")的值和计数的列表，但我在确定执行该请求的正确方法时遇到了麻烦。我本质上是在尝试做与T-SQL相当的操作FROM mytableimport com.datastax.spark.connector._ import org.apache.spark.sql.cassandra.

浏览 0提问于2017-10-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云