表算子

最近更新时间:2019-08-22 20:30:53

ExceptDistinct([2.0] ExceptDistinct)

算法说明

类似 SQL 中的 Except distinct 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 左表特征列:左表输入特征列,从0开始计数,例如“1-12,15”
  • 右表特征列:右表输入特征列,从0开始计数,例如“1-12,15”

Intersect([2.0] Intersect)

算法说明

类似 SQL 中的 Intersect 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
        • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 左表特征列:左表输入特征列,从0开始计数,例如“1-12,15”
  • 右表特征列:右表输入特征列,从0开始计数,例如“1-12,15”

Join([2.0] Join)

算法说明

类似 SQL 中的 Join 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 左表特征列:左表输入特征列,从0开始计数,例如“1 - 12,15”
  • 右表特征列:右表输入特征列,从0开始计数,例如“1 - 12,15”
  • join 类别:包括 inner、cross、outer、full、left、right 几类
  • on 条件:格式类似于a1,b1,a2,b2。其中a1和a2是左表的字段,b1和b2是右表的字段
  • 左右表添加前缀:左表和右表字段是否添加前缀
  • 左右表字段前缀名称

Limit([2.0] Limit)

算法说明

类似 SQL 中的 Limit 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

行数:选择的行数。

RegexpExtract([2.0] RegexpExtract)

算法说明

类似 SQL 中的 Regexp Extract 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv: csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:选择的特征列,从0开始计数,支持单列。
  • 正则表达式:匹配的正则表达式。
  • group id:组别 ID。

RegexpReplace([2.0] RegexpReplace)

算法说明

类似 SQL 中的 Regexp Replace 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:选择的特征列,从0开始计数,支持单列
  • 模式串
  • 替换串

选择特征列 ([2.0] SelectColumn)

算法说明

类似 SQL 中的 Select 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

选择特征列:检测的特征列,从0开始计数,例如“1 - 12,15”。

Union ([2.0] Union)

算法说明

类似 sql 中的 Union 操作。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv: csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 左表特征列:左表输入特征列,从0开始计数,例如“1 - 12,15”
  • 右表特征列:右表输入特征列,从0开始计数,例如“1 - 12,15”