要使用Python从Spark数据帧中获取交叉表的行百分比,可以按照以下步骤进行操作:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.appName("CrossTabPercentage").getOrCreate()
data = [("Alice", "A", 1), ("Bob", "A", 2), ("Alice", "B", 3), ("Bob", "B", 4)]
df = spark.createDataFrame(data, ["Name", "Category", "Value"])
crosstab()
函数生成交叉表,并将结果保存到一个新的数据帧中:cross_tab = df.crosstab("Name", "Category")
row_sums = cross_tab.select("Name_Category", sum([col(c) for c in cross_tab.columns[1:]]).alias("RowSum"))
cross_tab_with_row_sums = cross_tab.join(row_sums, cross_tab.Name_Category == row_sums.Name_Category, "inner").drop(row_sums.Name_Category)
cross_tab_percentage = cross_tab_with_row_sums.select(cross_tab_with_row_sums.Name_Category, *[col(c) / col("RowSum") * 100 for c in cross_tab_with_row_sums.columns[1:]])
cross_tab_percentage.show()
这样,你就可以使用Python从Spark数据帧中获取交叉表的行百分比了。
关于腾讯云相关产品和产品介绍链接地址,由于要求不能提及具体的云计算品牌商,建议你参考腾讯云的官方文档和产品介绍页面,以获取与云计算相关的产品信息。
领取专属 10元无门槛券
手把手带您无忧上云