文章/答案/技术大牛

发布

社区首页 >问答首页 >用农业火花和scala进行选择

问用农业火花和scala进行选择
EN

Stack Overflow用户

提问于 2017-02-27 13:52:30

回答 1查看 872关注 0票数 0

我用pySpark写的

result = \
df.select('*', date_format('window_start', 'yyyy-MM-dd hh:mm').alias('time_window')) \
.groupby('time_window') \
.agg({'total_score': 'sum'})
result.show()

我想让它在scala语言中运行，我做了这个，我得到了，我错了，我没有取消错误，因为scala是新的

val result=df.select('*', date_format(df("time_window"),"yyyy-MM-dd hh:mm").alias("time_window"))
.groupBy("time_window") 
.agg(sum("total_score"))

错误说

U1, U2org.apache.spark.sql.Dataset(U1, U2)org.apache.spark.sql.DataFrame (cols: org.apache.spark.sql.Column*)org.apache.spark.sql.DataFrame )不能应用于(Char，org.apache.spark.sql.Column) Process.scala /Process/src第30行Scala问题

如何修复源代码，使其在scala下运行

apache-spark-sql

scala

apache-spark

回答 1

Stack Overflow用户

发布于 2017-05-25 09:10:06

它的工作原理类似于您的pyspark代码。

  val data =  spark.sparkContext.parallelize(Seq(
    ("2017-05-21", 1),
  ("2017-05-21", 1),
  ("2017-05-22", 1),
  ("2017-05-22", 1),
  ("2017-05-23", 1),
  ("2017-05-23", 1),
  ("2017-05-23", 1),
  ("2017-05-23", 1))).toDF("time_window", "foo")

  data.withColumn("$time_window", date_format(data("time_window"),"yyyy-MM-dd hh:mm"))
    .groupBy("$time_window")
    .agg(sum("foo")).show

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42487476

复制

相似问题

问用农业火花和scala进行选择
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用农业火花和scala进行选择EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用农业火花和scala进行选择
EN