我有下面的代码来对工资进行分组
# this is a sample to learn about shuffle partitions config property
def getDataFrame():
data = [('Eric', 'history', 4000), ('Adam', '\Economics', 3000), ('Angela', 'Science', 6000)]
dataDF = spark.createDataFrame(data, 'name S
我能够在Spark‘文字’查询中使用序数(在GROUP BY和ORDER BY之后的这些整数):
sqlContext.sql("SELECT ProfileName, COUNT(1) FROM df GROUP BY 1 ORDER BY 2 DESC")
但是对于DataFrames/DataSet,我必须始终使用列名:
df.select($"ProfileName").groupBy($"ProfileName").count().orderBy(desc("count"))
我没有找到在DataFrames中使用序号的
下面的linq查询未返回按sequence字段降序排序的结果。取而代之的是返回结果,而不考虑orderby:
var qr = from l in reports.layouts
where l.job == jobNumber
orderby l.sequence descending
group l by l.filename;
但是,下面的代码能够返回按filename字段分组并按sequence字段降序排列的结果:
var qr = reports.layouts
.Where(l => l.job == jobNumber)
.OrderBy
我有一个linq查询,它似乎正在倒转前面查询的几行中的一列:
var dataSet = from fb in ds.Feedback_Answers
where fb.Feedback_Questions.Feedback_Questionnaires.QuestionnaireID == criteriaType
&& fb.UpdatedDate >= dateFeedbackFrom && fb.UpdatedDate <
我有一个名为tags(UserId,MovieId,Tag)的文件作为算法的输入,并通过registerTempTable将其转换为表格。val orderedId = sqlContext.sql("SELECT MovieId AS Id,Tag FROM tag ORDER BY MovieId")此查询提供给我的文件由Id、标记组成,作为第二步val eachTagCount =orderedId.groupBy(" Id,Tag").count()的输入,但出现错误 case class DataClass( MovieId:Int,UserId:
下面的代码可以正常工作,直到我在show之后添加agg。为什么show是不可能的?
val tempTableB = tableB.groupBy("idB")
.agg(first("numB").as("numB")) //when I add a .show here, it doesn't work
tableA.join(tempTableB, $"idA" === $"idB", "inner")
.drop("idA", "numA"
每次运行一个简单的groupby都会返回不同的值,尽管我还没有对dataframe进行任何修改。
下面是我使用的代码:
df = spark.sql('select * from data ORDER BY document_id')
df_check = df.groupby("vacina_descricao_dose").agg(count('paciente_id').alias('paciente_id_count')).orderBy(desc('paciente_id_count')).select(