我正在尝试使用groupby和aggregate将sparksql查询重写为dataframe转换。下面是原始的sparksql查询。measure_value) AS planned_sales_inputs FROM lookups GROUP BY date, Budget_Type, Full_Subcategory")
下面是我正在尝试进行的Dataframe转换。Budget_Type#279, date#41
为了利用SparkSQL查询功能,我从csv中获取了用户日志,并将其转换为DataFrame。单个用户每小时将创建多个条目,我想为每个用户收集一些基本的统计信息;实际上只是用户实例的计数、平均值和许多列的标准差。我能够通过使用groupBy($"user")和带有用于计数和平均的SparkSQL函数的聚合器快速获得平均值和计数信息:
val meanData =
我有一个从Hive表加载的dataframe df,它有一个时间戳列,比如ts,字符串类型为dd-MMM-yy hh.mm.ss.MS a (转换为python日期时间库,这是%d-%b-%y %I.现在,我想从数据帧中过滤前五分钟的行: datetime.strptime(df.ts, '%d-%b-%y %I.%M.minutes=5)但是,这不起作用,我收到以下消息
Type
我目前正在迁移我的应用程序的摄取代码,其中包括在HDFS中摄取数据,在HDFS中使用原始数据和应用层,并执行CDC(变更数据捕获),这是目前在Hive查询中编写的,并通过Oozie执行。这需要迁移到Spark应用程序(当前版本1.6)中。代码的另一部分稍后将迁移。在spark中,我可以直接从Hive中的表创建数据格式,只需按原样执行查询(如sqlContext.sql("my hive h