聚类算法

最近更新时间:2019-08-22 20:30:12

K均值([2.0] KMeans)

KMeans 是一种常用的聚类算法,将无标签的数据聚成 K 个类。平台提供的 KMeans 算法实现了并行的 k-means++ 的初始化算法.

训练节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a - b、c 或者它们的混合,用英文逗号分割(例如0 - 10,15,17 - 19表示第0到10列、15、17到19列总共15列作为特征)。
      • 标签列:作为标签的列,要求特征列的特征标签为 double 类型。
      • 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
  • 输出:ML 格式或者 PMML 格式的模型,保存在后台生成的路径下。
  • 算法参数
    • k:聚类类别数。
    • maxIter:最大迭代次数。
    • tol:容忍误差下界,低于该值的时候,算法停止迭代。
  • 半自动调参
    • 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
    • 评估方法:算法的评估方法,支持 ClustringEvaluator。
    • 评估指标:聚类评估指标 sllhouette。
    • k:离散整正整数参数,取值需要大于等于2。

预测节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构, 每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a - b、c 或者它们的混合,用英文逗号分割(例如0 - 10,15,17 - 19表示第0到10列、15、17到19列总共15列作为特征)。
  • 输出
    • 结果路径:路径。
    • 结果格式:结果数据格式,默认为 parquet。

高斯混合([2.0] GaussianMixture)

GaussianMixture 是高斯混合模型,可用于聚类。

训练节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a - b、c 或者它们的混合,用英文逗号分割(例如0 - 10,15,17 - 19表示第0到10列、15、17到19列总共15列作为特征)。
      • 标签列:作为标签的列,要求特征列的特征标签为 double 类型。
      • 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
  • 输出:ML 格式或者 PMML 格式的模型,保存在后台生成的路径下。
  • 算法参数
    • k:聚类类别数。
    • maxIter:最大迭代次数。
    • tol:容忍误差下界,低于该值的时候,算法停止迭代。
      • 半自动调参
    • 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
    • 评估方法:算法的评估方法,支持 ClustringEvaluator。
    • 评估指标:聚类评估指标 sllhouette。
    • k:离散整正整数参数,取值需要大于等于2。

预测节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构, 每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a - b、c 或者它们的混合,用英文逗号分割(例如0 - 10,15,17 - 19表示第0到10列、15、17到19列总共15列作为特征)。
  • 输出
    • 结果路径:路径。
    • 结果格式:结果数据格式,默认为 parquet。

二分 k 均值([2.0] BisectingKMeans)

算法说明

二分 K 均值算法属于层次聚类,详情可参考 官方文档

训练节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a - b、c 或者它们的混合,用英文逗号分割(例如0 - 10,15,17 - 19表示第0到10列、15、17到19列总共15列作为特征)。
      • 标签列:作为标签的列,要求特征列的特征标签为 double 类型。
      • 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
  • 输出:ML 格式或者 PMML 格式的模型,保存在后台生成的路径下。
  • 算法参数
    • k:聚类类别数。
    • maxIter:最大迭代次数。
      • 半自动调参
    • 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
    • 评估方法:算法的评估方法,支持 ClustringEvaluator。
    • 评估指标:聚类评估指标 sllhouette。
    • k:离散整正整数参数,取值需要大于等于2。

预测节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构, 每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a - b、c 或者它们的混合,用英文逗号分割(例如0 - 10,15,17 - 19表示第0到10列、15、17到19列总共15列作为特征)。
  • 输出
    • 结果路径:路径。
    • 结果格式:结果数据格式,默认为 parquet。