在R中,我可以使用多个数据列汇总数据,如下所示: library(dplyr):
A = B %>%
group_by(col1,col2) %>%
summarize(newcol = sum(col3)/sum(col4))
但是在python的pandas数据帧中,我如何在一步中执行相同的操作呢?
我可以在两个步骤中完成这项工作。步骤1:
A = B.groupby(['col1','col2']).agg({'col3': 'sum','col4':'sum'})
第2步:
A
我是新来的火花,我有两个长期运行阶段,正在做几乎相同的事情。下面是我的伪代码。
var metaData = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load(csvFile)
val met = broadcast(metaData.dropDuplicates(Seq("col1")))
va