TI-ONE 训练平台工作流组件说明

序号
组件类别
组件子类
组件名称
组件简介
1
数据源
﻿
数据接入
cos
读取数据中心的结构化、非结构化数据源数据到平台存储中。
2
﻿
﻿
数据集
将平台数据中心模块的数据集作为训练数据。
3
代码
﻿
PySpark
PySpark 框架。
4
﻿
﻿
Spark
Spark 框架。
5
﻿
﻿
TensorFlow
TensorFlow 框架。
6
﻿
﻿
TensorFlow_TI_Acc
TensorFlow 框架。
7
﻿
﻿
TensorFlow_PsWorker
TensorFlow 框架。
8
﻿
﻿
PyTorch
PyTorch 框架。
9
﻿
﻿
PyTorch_TI_Acc
PyTorch 框架。
10
数据处理
﻿
下采样
从大众类别中剔除一些样本，或者说只从大众类别中选取部分样本，以求达到不同类别数据平衡的目的。
11
﻿
﻿
按比例采样
提供了从原数据集里随机抽取特定比例的小样本数据的方法。
12
﻿
﻿
数据切分
提供了对结构化数据进行数据切分的能力。
13
﻿
﻿
缺失值填充
对数据中某列或某几列数据存在的缺失值进行替换。支持均值、中位值等填充方式。
14
﻿
﻿
自动数据预处理
包括去除重复样本；删除缺失率高的列，删除列值相同的列；数据规整化（大小写转换，去除两侧空格）；填充缺失值；处理异常值。
15
特征工程
特征转换
BoxCox 转换
用于连续的响应变量不满足正态分布的情况。Box-Cox 变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。
16
﻿
﻿
主成分分析-训练
一种统计学的特征降维方法，将数据从原来的坐标系投影到新的坐标系，通过每个维度的方差大小来衡量该维度的重要性。从中选取重要性排在前K个的特征作为新的特征，达到数据降维的目的。
17
﻿
﻿
主成分分析-预测
一种统计学的特征降维方法，将数据从原来的坐标系投影到新的坐标系，通过每个维度的方差大小来衡量该维度的重要性。从中选取重要性排在前K个的特征作为新的特征，达到数据降维的目的。
18
﻿
﻿
分位数离散化-训练
输入连续的特征列，输出离散的特征。分桶数是通过参数“桶数量”来指定的。 桶的范围是通过使用近似算法来得到的。桶的上边界和下边界分别是正无穷和负无穷时，取值将会覆盖所有的实数值。
19
﻿
﻿
分位数离散化-预测
输入连续的特征列，输出离散的特征。分桶数是通过参数“桶数量”来指定的。 桶的范围是通过使用近似算法来得到的。桶的上边界和下边界分别是正无穷和负无穷时，取值将会覆盖所有的实数值。
20
﻿
﻿
向量索引-训练
把数据集中的类型特征转换为索引。它不仅可以自动的判断哪些特征可以类别化，也能将原有的值转换为类别索引。通过 maxCategories 参数来判断特征是否可以类别化。
21
﻿
﻿
向量索引-预测
把数据集中的类型特征转换为索引。它不仅可以自动的判断哪些特征可以类别化，也能将原有的值转换为类别索引。通过 maxCategories 参数来判断特征是否可以类别化。
22
﻿
﻿
多项式展开
将特征展开到多元空间的处理过程。 它通过 degree（阶）结合原始的维度来定义。例如设置degree为2就可以将 (x, y) 转化为 (x, x x, y, x y, y y)。
23
﻿
﻿
字符串索引化-训练
把数据集中的字符串特征转换为索引。字符串索引很多情况下会和独热编码一起使用。
24
﻿
﻿
字符串索引化-预测
把数据集中的字符串特征转换为索引。字符串索引很多情况下会和独热编码一起使用。
25
﻿
﻿
最小最大归一化-训练
将每个特征调整到一个特定的范围(通常是[0,1])。
26
﻿
﻿
最小最大归一化-预测
将每个特征调整到一个特定的范围(通常是[0,1])。
27
﻿
﻿
标准归一化-训练
在原始的数据中，各变量的范围大不相同。对于某些机器学习的算法，若没有做过标准化，目标函数会无法适当地运作。标准归一化会使每个特征中的数值平均变为0(将每个特征的值都减掉原始数据中该特征的均值)、标准差变为1。
28
﻿
﻿
标准归一化-预测
在原始的数据中，各变量的范围大不相同。对于某些机器学习的算法，若没有做过标准化，目标函数会无法适当地运作。标准归一化会使每个特征中的数值平均变为0(将每个特征的值都减掉原始数据中该特征的均值)、标准差变为1。
29
﻿
﻿
特征分桶
将连续的特征列转换成离散的列。这些离散值由用户指定，通过“切分区间”参数来确定。
30
﻿
﻿
独热编码one-hot
将离散型特征的每一种取值都看成一种状态，若您的这一特征中有 N 个不相同的取值，那么我们就可以将该特征抽象成 N 种不同的状态，独热编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这 N 种状态中只有一个状态位值为1，其他状态位都是0。
31
﻿
特征选择
卡方特征选择
卡方用来描述两个事件的独立性或者描述实际观察值与期望值的偏离程度。卡方值越大，则表明实际观察值与期望值偏离越大，也说明两个事件的相互独立性越弱。
32
﻿
﻿
基于树的特征选择
基于树的集成算法有一个很好的特性，就是模型训练结束后可以输出模型所使用的特征的相对重要度，便于我们选择特征，理解哪些因素是对预测有关键影响。
33
机器学习
分类
XGBoost分类-训练
XGBoost(eXtreme Gradient Boosting) 是基于优化的 Gradient Boosting 算法的一个开源框架，可以用于回归，也可以用于分类，是目前数据科学竞赛最流行的工具包之一。
34
﻿
﻿
XGBoost分类-预测
XGBoost(eXtreme Gradient Boosting) 是基于优化的 Gradient Boosting 算法的一个开源框架，可以用于回归，也可以用于分类，是目前数据科学竞赛最流行的工具包之一。
35
﻿
﻿
k最近邻分类-训练
通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。
36
﻿
﻿
k最近邻分类-预测
通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。
37
﻿
﻿
决策树分类-训练
是机器学习中非常常用的一类分类算法。决策树算法有很多优点，例如：解释性好，可以处理类别特征，支持多分类，不需要做特征scaling，可以表示非线性模型。
38
﻿
﻿
决策树分类-预测
是机器学习中非常常用的一类分类算法。决策树算法有很多优点，例如：解释性好，可以处理类别特征，支持多分类，不需要做特征 scaling，可以表示非线性模型。
39
﻿
﻿
朴素贝叶斯分类-训练
一种常用的多分类算法。 算法假设各个特征之间是相互独立的，通过贝叶斯公式计算出某个样本属于某个类别的概率。
40
﻿
﻿
朴素贝叶斯分类-预测
一种常用的多分类算法。 算法假设各个特征之间是相互独立的，通过贝叶斯公式计算出某个样本属于某个类别的概率。
41
﻿
﻿
梯度提升树分类-训练
一种常用的分类算法，每一轮根据梯度信息构造一棵树来拟合之前所有树拟合的残差。
42
﻿
﻿
梯度提升树分类-预测
一种常用的分类算法，每一轮根据梯度信息构造一棵树来拟合之前所有树拟合的残差。
43
﻿
﻿
线性支持向量机分类-训练
支持向量机（SVM）是机器学习中非常经典的算法，这里提供了线性支持向量机分类器， 目前只支持 L2 正则和二分类。
44
﻿
﻿
线性支持向量机分类-预测
支持向量机（SVM）是机器学习中非常经典的算法，这里提供了线性支持向量机分类器， 目前只支持 L2 正则和二分类。
45
﻿
﻿
逻辑回归-训练
是最简单的分类算法。但是因其模型简单、可解释性强等特点在工程领域有很广泛应用。 平台目前提供的 LR 算法支持二分类和多分类。
46
﻿
﻿
逻辑回归-预测
是最简单的分类算法。但是因其模型简单、可解释性强等特点在工程领域有很广泛应用。 平台目前提供的 LR 算法支持二分类和多分类。
47
﻿
﻿
随机森林分类-训练
是常用的机器学习算法，利用ensemble的思想，通过训练多个弱分类器(决策树)来合成强分类器。平台提供的随机森林算法支持二分类和多分类。
48
﻿
﻿
随机森林分类-预测
是常用的机器学习算法，利用 ensemble 的思想，通过训练多个弱分类器(决策树)来合成强分类器。平台提供的随机森林算法支持二分类和多分类。
49
﻿
回归
XGBoost  回归-训练
XGBoost(eXtreme Gradient Boosting) 是基于优化的 Gradient Boosting 算法的一个开源框架，可以用于回归，也可以用于分类，是目前数据科学竞赛最流行的工具包之一。
﻿
﻿
﻿
XGBoost  回归-预测
XGBoost(eXtreme Gradient Boosting) 是基于优化的 Gradient Boosting 算法的一个开源框架，可以用于回归，也可以用于分类，是目前数据科学竞赛最流行的工具包之一。
45
﻿
﻿
决策树回归-训练
是机器学习中非常常用的一类回归算法。 决策树算法有很多优点， 例如：解释性好，可以处理类别特征，支持多分类，不需要做特征 scaling，可以表示非线性模型。 平台上的决策树分类算法支持连续、非连续特征的多分类任务，最高可以支持百万级别的样本。
46
﻿
﻿
决策树回归-预测
是机器学习中非常常用的一类回归算法。 决策树算法有很多优点， 例如：解释性好，可以处理类别特征，支持多分类，不需要做特征 scaling，可以表示非线性模型。 平台上的决策树分类算法支持连续、非连续特征的多分类任务，最高可以支持百万级别的样本。
47
﻿
﻿
多项式回归-训练
是在训练线性回归模型之前，对数据进行多项式变换，扩展数据特征的维度。
48
﻿
﻿
多项式回归-预测
是在训练线性回归模型之前，对数据进行多项式变换，扩展数据特征的维度。
49
﻿
﻿
岭回归-训练
岭回归，是在线性回归的基础上添加了 L2 正则项，它会使线性回归系数中的 w 趋近于0，有防止过拟合的作用。
50
﻿
﻿
岭回归-预测
岭回归，是在线性回归的基础上添加了 L2 正则项，它会使线性回归系数中的 w 趋近于0，有防止过拟合的作用。
51
﻿
﻿
梯度提升树回归-训练
是一种常用的回归算法，每一轮根据梯度信息构造一棵树来拟合之前所有树拟合的残差。
52
﻿
﻿
梯度提升树回归-预测
是一种常用的回归算法，每一轮根据梯度信息构造一棵树来拟合之前所有树拟合的残差。
53
﻿
﻿
贝叶斯岭回归-训练
是对极大似然估计法容易造成的过拟合问题进行了优化的线性回归算法，贝叶斯岭回归的过程是一个样本点逐步增加到学习器的过程，前一个样本点的后验会被下一次估计当作先验。
54
﻿
﻿
贝叶斯岭回归-预测
是对极大似然估计法容易造成的过拟合问题进行了优化的线性回归算法，贝叶斯岭回归的过程是一个样本点逐步增加到学习器的过程，前一个样本点的后验会被下一次估计当作先验。
55
﻿
﻿
随机森林回归-训练
是常用的机器学习算法，利用 ensemble 的思想，通过训练多个决策树来合成强分类器。
56
﻿
﻿
随机森林回归-预测
是常用的机器学习算法，利用 ensemble 的思想，通过训练多个决策树来合成强分类器。
57
﻿
聚类
DBSCAN
是一个比较有代表性的基于密度的聚类算法。
58
﻿
﻿
KMeans-训练
是最经典的聚类算法，将无标签的数据聚成K个类。 平台提供的 KMeans 算法实现了并行的 k-means++ 的初始化算法。
59
﻿
﻿
KMeans-预测
是最经典的聚类算法，将无标签的数据聚成K个类。 平台提供的 KMeans 算法实现了并行的 k-means++ 的初始化算法。
60
﻿
﻿
层次聚类
通过不断的合并或者分割内置聚类来构建最终聚类
61
﻿
﻿
高斯混合模型-训练
高斯混合模型（Gaussian Mixture Model）是一种业界广泛使用的聚类算法，该方法使用了高斯分布作为参数模型，并使用了期望最大（Expectation Maximization）算法进行训练。
62
﻿
﻿
高斯混合模型-预测
高斯混合模型（Gaussian Mixture Model）是一种业界广泛使用的聚类算法，该方法使用了高斯分布作为参数模型，并使用了期望最大（Expectation Maximization）算法进行训练。
63
﻿
推荐
基于商品的协同过滤-训练
基于物品的协同过滤就是根据用户历史选择物品的行为，通过物品间的相似度，给用户推荐其他物品。
64
﻿
﻿
基于商品的协同过滤-预测
基于物品的协同过滤就是根据用户历史选择物品的行为，通过物品间的相似度，给用户推荐其他物品。
65
﻿
﻿
基于用户的协同过滤-训练
基于用户的协同过滤通过不同用户对物品的评分来评测用户之间的相似性。然后基于用户的相似性做推荐。
66
﻿
﻿
基于用户的协同过滤-预测
基于用户的协同过滤通过不同用户对物品的评分来评测用户之间的相似性。然后基于用户的相似性做推荐。
67
﻿
关联规则
关联规则挖掘-训练
关联规则的一种实现方式，该算法将大规模的频繁集构建成 FPTree 提高了提取频繁集的效率。
68
﻿
﻿
关联规则挖掘-预测
关联规则的一种实现方式，该算法将大规模的频繁集构建成 FPTree 提高了提取频繁集的效率。
69
﻿
异常检测
Zscore 异常值检测
是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布，异常值是分布尾部的数据点，因此远离数据的平均值。
70
﻿
﻿
孤立森林-训练
是一种基于孤立森林的异常点检测算法，该算法首先构建 n 棵树，每棵树都从原始数据中有放回的采样 m 个样本进行训练，每棵树在训练的时候都完全采用了随机选择特征以及特征分裂点的方式，然后再将每颗树的训练结果进行汇总就可以得到每个样本成为异常点的概率（0到1之间的浮点值），该值越大越有可能是异常点。
71
﻿
﻿
孤立森林-预测
是一种基于孤立森林的异常点检测算法，该算法首先构建 n 棵树，每棵树都从原始数据中有放回的采样 m 个样本进行训练，每棵树在训练的时候都完全采用了随机选择特征以及特征分裂点的方式，然后再将每颗树的训练结果进行汇总就可以得到每个样本成为异常点的概率（0到1之间的浮点值），该值越大越有可能是异常点。
72
﻿
表算子
SelectColumn
类似 SQL 中的 Select 操作。
78
﻿
﻿
BERT 文本分类-训练
BERT文本分类算法首先使用 BERT 网络，产生要分类的句子的向量表示，再通过全连接层网络对句子进行分类。
79
﻿
﻿
BERT 文本分类-预测
BERT 文本分类算法首先使用 BERT 网络，产生要分类的句子的向量表示，再通过全连接层网络对句子进行分类。
80
﻿
﻿
LSTM 文本分类-训练
首先使用双向 LSTM 网络产生要分类的句子的向量表示，再通过全连接层网络对句子进行分类。
81
﻿
﻿
LSTM 文本分类-预测
首先使用双向 LSTM 网络产生要分类的句子的向量表示，再通过全连接层网络对句子进行分类。
82
﻿
﻿
TF-IDF 句子向量-训练
计算输入文本中各个句子的TF-IDF向量表示，每个句子视为一篇文档。计算 idf 时使用 smoothed-idf，即 idf(d, t) =log [ (1 + n) / (1 + df(d, t)) ] + 1。
83
﻿
﻿
TF-IDF 句子向量-预测
计算输入文本中各个句子的 TF-IDF 向量表示，每个句子视为一篇文档。计算 idf 时使用 smoothed-idf，即 idf(d, t) =log [ (1 + n) / (1 + df(d, t)) ] + 1。
84
﻿
﻿
TextCNN 文本分类-训练
TextCNN使用卷积神经网络产生句子的向量表示，再通过全连接层网络对句子进行分类。
85
﻿
﻿
TextCNN 文本分类-预测
TextCNN使用卷积神经网络产生句子的向量表示，再通过全连接层网络对句子进行分类。
86
﻿
﻿
Word2vec 词向量
是一种经典的词向量算法，能够从大量文本中学习出各个词语的向量表示。这一向量表示可以用作其它深度学习模型的初始值。
88
﻿
﻿
中文关键词抽取
中文关键词抽取算法使用 TF-IDF 抽取输入文本中的关键词。要求文本为中文，无需预先分词。
89
﻿
﻿
中文分词
算法描述：对输入数据中的指定文本列进行分词。将原有列替换为以空格分割的分词后的句子。适用场景：中文分词的场景。
90
﻿
﻿
中文去停用词
算法描述：给定停用词表，去除文本中的停用词。文本需要预先进行分词并使用空格或者\\t隔开。适用场景：文本清洗的场景。
91
﻿
﻿
中文词频统计
文本中的词语需要先用空格分割，对于原始中文文本，可以使用【中文分词】节点预先分词。
92
﻿
﻿
句子转向量表示
Sentence2Vec 可以利用已经存在的词向量将句子转换为向量表示。
93
评估分析
可视化
气泡图
分别指定横坐标、纵坐标、颜色、气泡大小所对应的列即可。不指定气泡大小列，气泡图就会变成散点图。
94
﻿
﻿
散点图
指定横坐标、纵坐标对应的列，画散点图。
95
﻿
﻿
直方图
指定输入数据表的某一列，模块就会统计每个元素出现的频次，并画直方图。
96
﻿
﻿
箱线图
指定beginCol到endCol之间的多个列，将绘制出这多个列的箱线图。
97
﻿
﻿
折线图
指定横坐标列，然后指定beginCol到endCol之间的多个列，将会绘制出这多个列的折线图。
98
﻿
﻿
饼状图
类似于直方图，指定输入数据表的某一列，模块就会统计每个元素出现的频次，并绘制饼图。
99
﻿
模型评估
分类任务评估
用于评估二分类算法的预测结果。评估结果包括混淆矩阵和 precision，recall，accuracy，f1，ROC Curve，PR Curve，KS Curve，Gain Curve，Lifts Curve等指标。
100
﻿
﻿
Tensorboard 评估
tf 任务。
101
﻿
﻿
回归任务评估
用于评估回归算法的预测结果。输入的是真实的值和模型预测值，评估结果包括 RMSE，MSE，MAE，gt vs predict，gt vs residual error。
102
﻿
﻿
聚类任务评估
用于评估聚类算法的预测结果，评估结果包括 ARI，AMI，NMI，MI，V-measure，轮廓系数，CH score，DBI。
103
﻿
统计分析
相关系数矩阵
统计数据表中的各个数值特征维度相关系数矩阵。
104
自动驾驶行业
﻿
4D 预标注
多模态 3D 预标注，运行 BEVFusion DAMO L40 模型，融合图像与 LiDAR，产出每帧 3D 检测框/类别/置信度。
105
﻿
﻿
mit预标注
多模态检测，运行 BFM/MIT 模型，同样利用相机+点云生成独立的 3D 检测结果。
106
﻿
﻿
数据合并
检测融合，按时间戳对齐两路检测，并融合为统一目标列表
107
﻿
﻿
标注对象唯一 ID 绑定
目标跟踪，跨帧关联目标，输出轨迹 ID 及位置/速度/姿态信息。
108
﻿
﻿
4D-trk 结果落库
轨迹入库，按 TASK_ID 关联元数据，将轨迹 JSON 写入数据库。
109
﻿
﻿
激光雷达预标注
点云分割预标注，用 tracking 的 3D 框裁点，给框内点赋“车/人/道路”等标签。
110
﻿
﻿
2D 标签预标注
2D 图像预标注，运行 YOLOv12x 等模型，生成每张图片的 2D 框/类别/置信度。
111
﻿
﻿
地图标注
通过融合位姿优化轨迹，重定位实现与高精地图母库的配准，生成 bev_mapping 预标注地图矢量标注数据。
注意：此组件需使用敏感检测服务，使用前请先联系平台获取服务。
112
﻿
﻿
occ
基于激光分割/4D标注信息生成 occ4d 体素/语义。
113
﻿
﻿
文件解压
解压 zip 文件。
114
﻿
﻿
点云文件优化
清理 PCD 文件头部（去非 ASCII）、滤噪/下采样、可选截取地面，并统一字段顺序/数据格式。
115
﻿
﻿
数据转换
数据转换算子，将数据集文件/格式转换为标准形式。
116
﻿
﻿
图片向量化
图片向量化算子，将数据集图片存入向量数据库。
117
﻿
﻿
地信脱敏
对经纬度/姿态做整体偏移并加微小噪声，保持轨迹形状但掩盖真实位置。注意：此组件需使用高精地图数据，使用前请先联系平台获取支持。
118
﻿
﻿
个信加密
调用 TDS 工具复制全量数据，并重写所有引用位姿的元数据，确保任意坐标都使用脱敏系。
﻿