主题模型

最近更新时间:2019-08-22 20:30:39

隐式狄利克雷分布 [2.0] LDA

LDA 是一种概率主题模型:隐式狄利克雷分布(Latent Dirichlet Allocation,简称 LDA)。
LDA 是2003年提出的一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出。 通过分析一些文档,我们可以抽取出它们的主题(分布),根据主题(分布)进行主题聚类或文本分类。
同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

训练节点

  • 输入
    • 输入数据路径:输入文件所在路径
    • 输入文件类型:格式包括以下两种:
      • csv: csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 算法参数
    • 特征列:作为训练特征的列,从0开始编号。可填形式如 a - b、c 或它们的混合,用英文逗号分割(例如0 - 10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
    • 迭代次数:算法迭代次数
    • 主题个数
    • 优化方法:online 或者 em

预测节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 结果路径:路径。
    • 输出文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet