Spark Scala -7天累计总和_Spark Scala按日期累计的唯一计数_在Spark DataFrame中添加一个新列，该列包含一个列的所有值的总和-Scala/Spark - 腾讯云开发者社区

scala、apache-spark

我有一些数据，我想计算一个7天的滚动总和。特定日期的每一行都应计为1次出现。

浏览 22提问于2020-04-08得票数 0

回答已采纳

0回答

如何使用Spark scala RDD获得基于两列的运行和

scala、apache-spark、rdd

我想计算基于geog和time的运行总和。我需要像这样的结果。我需要这个spark-Scala-RDD。我是Scala领域的新手，我可以用SQL轻松实现这一点。我想在spark -Scala -RDD中这样做，就像使用(地图，平面地图)一样。提前感谢您的帮助。

浏览 3提问于2017-01-11得票数 0

2回答

如何在spark/scala中根据索引位置查找for each的值和

scala、apache-spark

: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[8] at parallelize at <console>:26 mapRDD: org.apache.spark.rdd.RDDfinalRDD.reduceBy

浏览 15提问于2020-05-08得票数 0

回答已采纳

1回答

有没有一种方法可以将结束列添加到透视数据帧中？

scala、apache-spark、pivot

假设我有下一个数据帧： val df = spark.sparkContext.parallelize(Seq( ("A", "13"我想要的是在'column 17‘旁边添加一列来计算每一行的总和。withColumn("summation", sum($"Value")) 我带了这个answer，但我不能应用它:/ 我使用的是Scala</em

浏览 13提问于2019-06-13得票数 1

回答已采纳

1回答

火花数据聚合

scala、apache-spark

在scala中，我有一个在Spark上聚合数据的要求。201610 100 550201612 120 780就这个月而言，201603 agg_sales将是201601到201603年间销售额的总和就这个月而言，201604 agg_sales将是201601到201604年间销售额的总和。诸若此类。有人能帮忙做这件事

浏览 3提问于2016-12-28得票数 1

回答已采纳

1回答

如何在spark中对scala中的Long和BigInt进行数学运算

scala、apache-spark、apache-spark-sql、bigdata

我有两个不同类型的值，如下所示ageSum: org.apache.spark.sql.DataFrame = [sum(age): bigint]scala> totalEntries第一个值来自数据帧上的聚合函数平均值=年龄总和/总数 scala</

浏览 7提问于2017-01-26得票数 0

回答已采纳

1回答

星火外壳:不可序列化的任务

scala、serialization、apache-spark、cassandra、rdd

$foreach$1.apply(RDD.scala:911)org.apache.spark.rdd.RDD$$anonfun$foreach$1.apply(RDD.scala:910) at org.apache.spark.rdd.RDDOperationScope:111) at org.apache.spark.rdd.RDD.withScope(RDD.scala:316) at org.apache.spark.rdd.RDD.foreach(RDD.<

浏览 5提问于2016-08-23得票数 1

1回答

ML流水线上的火花驱动程序内存问题

apache-spark、pyspark、apache-spark-mllib

(SparkContext.scala:2027) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2124) at org.apache.spark.rdd.RDD$.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:363) at org.apache.spark</

浏览 0提问于2018-06-07得票数 0

1回答

错误:单元格计数为1，但在索引0处未返回单元格: row=XXX

hbase

我唯一的怀疑是，也许值的总和超过了max Integer？但我对此表示怀疑。SparkContext.scala:2101) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90) at org.apache.s

浏览 10提问于2019-07-30得票数 0

1回答

如何在spark* sql中对数组进行成员级操作？*

apache-spark、apache-spark-sql

在spark-sql中，我有一个列为col的数据帧，其中包含一个大小为100的Int数组(例如)。 at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:116)(SparkPlan.scala:135) at org.apache.spark</em

浏览 2提问于2018-10-17得票数 0

1回答

：您在PySpark中超出了您的速率限制容限错误/

apache-spark、ibm-cloud、rdd、pyspark-sql、cloudant

我找不到RDD的总和。我是这个领域的新手，请帮帮忙。 at org.apache.spark.rdd.RDD.iterator(RDD.scala:290) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala</e

浏览 3提问于2018-08-30得票数 1

回答已采纳

1回答

Spark -使用父记录对子项进行聚合和求和

dataframe、apache-spark、dataset、aggregation

最重要的事实是，只有叶元素-没有子元素-具有指定值，每个父元素必须是其所有子值的总和。最初，所有父对象的值都等于0。

浏览 19提问于2020-06-19得票数 0

回答已采纳

2回答

无法启动--在s3桶上提交pyspark文件

amazon-web-services、apache-spark、amazon-s3、pyspark、amazon-emr

我有一个pyspark代码，它既存储在AWS集群的主节点上，也存储在一个s3桶中，该桶从MySQL数据库中获取超过1.4亿行，并将列的总和存储在s3上的日志文件中。$.getHadoopFileSystem(Utils.scala:1911) at org.apache.spark.util.Utils$.doFetchFile(Utils.scala:766at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deplo

浏览 15提问于2020-07-02得票数 0

2回答

如何构建一个RDD，其中每个元素等于前面输入元素的总和？

scala、apache-spark

从这个列表中，我需要创建另一个RDD列表，其中每个元素等于它前面所有元素的总和。如何在Spark中构建这样的RDD？下面的Scala代码演示了我试图在Spark中实现的功能： } }List(1.0, 3.0, 6.0) 在这个例子中，什么是等价的<em

浏览 0提问于2015-01-27得票数 4

1回答

记录的过程值

scala、apache-spark、apache-spark-sql、rdd

我是Spark的新手，我找不到足够的信息来理解Spark中的一些东西。我正在尝试用scala编写伪代码(就像这些示例一样)。data=spark.textFile(“hdfs://…”) line=data.filter(mark=> mark !

浏览 1提问于2020-02-27得票数 1

1回答

时间序列与斯卡拉和火花。滚动窗

scala、apache-spark、time-series、window-functions

我正在尝试使用Scala和spark进行下面的练习。--------------|----------------------| num_row_in_window是当前窗口中包含的行数，sum_values_in_windows是当前窗口中包含的值的总和我一直在尝试使用滑动函数或使用sql，但考虑到我是spark/scala新手，这对我来说是解决这个问题的最佳解决方案。

浏览 0提问于2018-07-03得票数 1

回答已采纳

1回答

Spark Scala按日期累计的唯一计数

scala、date、apache-spark、grouping、cumulative-sum

我有一个数据框架，它给出了一组id号码和他们访问某个位置的日期，我正在尝试在spark scala中找到一种方法来获取每天或之前访问过该位置的唯一用户(“id”)的数量，这样如果他们在2019-01-

浏览 16提问于2019-02-22得票数 2

1回答

Spark : scala.MatchError 0.0 (属于java.lang.Double类)

scala、apache-spark、apache-spark-sql、user-defined-functions

这不仅是一个累积的总和，但我需要根据一些条件计算要保持的数字。package me.nevi import org.apache.spark.sql.expressions.apply(SparkPlan.scala:246) at org.apache.spark.sql.execution.SparkPlan$$anonfun$4

浏览 0提问于2016-11-21得票数 3

回答已采纳

2回答

无需硬编码即可计算`t`时间段的累计计数

scala、dataframe

我有每个时间段内发生的事件的计数t：现在我想要该时间段内的累计事件数。import org.apache.spark.SparkContextimport org.apache.spark.SparkConf import org.apache.spark.sql.SQLContex

浏览 5提问于2016-09-02得票数 1

回答已采纳

2回答

如何在Java上执行标准偏差和平均操作？

java、apache-spark、rdd、bigdata

我有一个像这样的JavaRDD[A,8][C,5][B,8]...我希望我的结果是刻薄的[A,5][C,5]如何仅使用Java进行此操作。我想避免groupBy操作，所以我不使用DataFrames。

浏览 6提问于2016-05-29得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云