统计分析

最近更新时间:2019-08-22 20:30:59

全表统计([2.0] Statistic])

全表统计是对数据全表做的统计,根据不同的数据类型能够输出六种不同内容的统计结果。

参数

  • 特征列:输入特征列序号,从0开始计数,如0 - 29。
  • 输入数据包含 header 信息。
  • 输入数据分隔符:主要包括逗号、空格、分号、星号等分割符。
输出 参数
category top,counts,uniques,missing,missing_perc, types
unique counts,uniques,missing,missing_perc,types
date max,min,range,counts,uniques,missing,missing_perc,types
numerics mean,std,variance,min,max,5%,25%,50%,75%,95%,iqr,kurtosis,skewness,sum,mad,cv ,zeros_num,zeros_perc,deviating_of_mean,deviating_of_mean_perc,deviating_of_median,deviating_of_median_perc,top_correlations,counts,uniques,missing,missing_perc,types
constant This is a constant value
bool true_class_count,true_class_perc,false_class_count,false_class_perc,counts,uniques,missing,missing_perc,types

统计显示([2.0] StatisticAnalysis)

用户可以通过 StatisticAnalysis 获取对数据做出的统计数据与统计图。目前支持七种统计显示方式:协方差、相关系数矩阵、正态检验、卡方拟合性检验、卡方独立性检验、经验密度图、离散值特征分析图。

任务流连接方式:

  • 【COS 数据源】>【SelectColumn】>【StatisticAnalysis】
  • 【本地数据】>【SelectColumn】>【StatisticAnalysis】

参数配置时有直接点选字段功能,因此请先将前两步运行成功后,再使用此算子。

参数:

  • 输入数据是否包含 header 信息:是或否。
  • 输入数据分隔符:主要包括逗号、空格、分号、星号等分割符。
  • 统计方式:支持选择不同的统计方式。
  • 选择字段:针对不同的统计方式选择字段。