我需要使用sql查询从pyspark中提取计数。count在sparkdataframe中,我想使用计数值在if条件中使用,但不能提取该值。如何从sparkdataframe中提取int值 query = "select count(*) as count from abc where FLAG= 'C' "
counter =
我是Spark ML的新手。我正在尝试使用Spark ML Pipeline来链接数据转换(将其视为ETL过程)。换句话说,我想输入一个DataFrame,执行一系列转换(每次向该数据帧添加一列),并输出转换后的DataFrame。我研究了Python中的Pipeline文档和代码,但我不知道如何将转换后的数据集从Pipeline中提取<
enter code here我正在练习在数据仓库中添加一个列表。我可以开发udf并注册,然后在dataframe上应用,但我想尝试一种不同的方法,即提取list from dataframe col和它们map it,然后在新列中提取readd to the originaldataframe。x.length.toString}应用转换:val res95: