有奖捉虫:行业应用 & 管理与支持文档专题 HOT
TI 平台内置多种模型评估可视化组件,您可快速辨别模型的质量,并对该模型进行优化。您只需拖拽组件即可轻松使用本服务。

分类任务评估

原理

算法说明

用于评估多分类算法的预测结果。样本的预测结果是模型预测的类别;模块将会统计类别真实类列和预测类别的混淆矩阵和各个类别的 precision ,recall ,f1 值等指标。

参数配置

算法 IO 参数
*输入文件类型:格式包括以下两种:
csv :csv 文件
*输入数据是否包含 header 信息:默认为“是”。
*输入数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
parquet :列式存储格式 parquet
*输出文件类型:格式包括以下两种:
csv :csv 文件
*输出数据是否包含 header 信息:默认为“是”。
*输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
parquet :列式存储格式 parquet
*标签列:标签所在列,从 0 开始计数。
*预测概率列:预测标签所在列,从 0 开始计数。
默认阈值:0-1 ,用于计算二分类问题周期性评估任务曲线。

Demo

输入数据示例

示例第一行为列名,之后的每一行为一条数据,第一列为真实的标签值,第二列为预测的标签值,其他列分别为数据特征和预测标签的概率,在这里可以忽略。
label,prediction,feature0,feature1,feature2,feature3,rawPrediction_0,rawPrediction_1,rawPrediction_2,probability_0,probability_1,probability_2
0,0.0,0.09547202089091267,0.12111200748218809,0.5738027311850421,0.654198289398195,6962.3957222206955,6961.230149684578,-13923.625871905275,0.7623437986568046,0.23765620134319534,0.0
1,1.0,0.6924842689344346,0.19439351152458817,0.3865684471963985,0.05321081575861153,14559.769644816764,14561.096149835037,-29120.8657946518,0.20973806381803564,0.7902619361819644,0.0
1,0.0,0.1260138620446597,0.22531380638758647,0.27173232478331544,0.44527904338745505,3205.8640710060827,3204.6232766493904,-6410.487347655475,0.7757022532816622,0.2242977467183377,0.0
0,0.0,0.13552828947855777,0.11437834164884886,0.037622999099831356,0.446756106478003,3.88169180299883,3.8664494357453805,-7.748141238742392,0.5038082598503858,0.4961872579316907,4.482217923473792E-6
2,2.0,0.9951267080505962,0.11072028554133828,0.4416440438291308,0.6552665738557973,-22.851788751519052,-52.73205965202396,75.58384840354847,1.778058153258636E-43,1.8754659816536433E-56,1.0
2,2.0,0.9648636259413398,0.8613232380642487,0.41047831835183646,0.04463912445900797,-11.080601389732692,-45.04951676717792,56.130118156906974,6.467782041560008E-30,1.1435176479688408E-44,1.0
0,0.0,0.385948217112114,0.471848572566956,0.33316630259891533,0.02457996643849114,9604.141034014887,9603.838297893002,-19207.97933190788,0.5751112479212738,0.4248887520787261,0.0
0,0.0,0.9852449282177246,0.8701088950377484,0.5569803066340037,0.1593728469317075,32.35928938997313,-5.690191450650673,-26.669097939320636,1.0,2.987586110005293E-17,2.3136470488510858E-26
2,2.0,0.04674680837534573,0.7910466832389871,0.2687363670218692,0.13139448537973175,-3.6782648976204655,-12.380068154261608,16.058333051882073,2.6822818927494374E-9,4.460250810978383E-13,0.9999999973172722
1,1.0,0.06383723715979805,0.4067189108549871,0.027643799693260473,0.1785896467546867,1150.9454633295954,1152.508898817241,-2303.454362146833,0.17315422948476655,0.8268457705152336,0.0

参数配置

算法 IO 参数
*输入文件类型:csv
*输入数据包含 header 信息:是
*输入文件分隔符:逗号
*输出文件类型:csv
*输出数据包含 header 信息:是
*输出文件分隔符:逗号
*标签列:0
*预测概率列:probability_0,probability_1,probability_2

输出数据示例





评估报告















回归任务评估

原理

算法说明

此算子绘制回归预测和实际标记的分布图,以及实际标签和回归预测的散点图,实际标记与残差的散点图,残差的分布图。

参数配置

算法 IO 参数
*输入数据是否包含 header 信息:默认为“是”。
*输入数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
*输出文件类型:格式包括以下两种:
csv :csv 文件:
*输出数据是否包含 header 信息:默认为“是”。
*输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
parquet :列式存储格式 parquet
算法参数
*标签列:标签所在列,样本真实的 label ,从 0 开始计数。
*预测列:预测标签值所在列,从 0 开始计数。
*采样比例:采样数据比例。
*组数:直方图划分组数。

Demo

输入数据示例

示例第一行为列名,之后的每一行为一条数据,第一列是真实标记列,第二列是预测标记。
label,prediction
-0.29189646,1.1431737
-0.9390533000000001,-0.12978475
0.047904222999999996,0.52395946
-0.43790194,0.15547183
-4.289253700000001,-1.1407472
-1.6920289000000002,0.6667797
-0.10317913,0.038158763
-1.288035,-0.25880423
-0.4803840999999999,-0.48202756
-0.14766432,-0.104666084
-0.51906985,0.6176596
1.5173593,-0.5719963
-0.010201794,0.41927034
1.4968860000000002,0.15863535
-0.801447,-0.24161682
0.2854233,-0.7439231
0.2580007,-0.7503867
0.4499589,-0.7051414
0.24270661,-0.7162168999999999
1.4515356000000001,1.0585343
1.4087246999999998,1.5313885
0.9995582000000001,0.52330685
-1.4701016000000002,-2.282194
1.5083481,0.25972375
1.4439633,0.29309285
1.6061385,-1.6601986
-1.9190398000000002,0.49734822
1.488502,-0.049488734000000006
1.357133,-0.30244815
1.4627463,0.90555143
-6.7710967,-7.358083199999999
-6.079337000000001,2.581851
-10.691196000000001,-2.0419738
-10.733854,-1.6389601000000003
-9.177166,-0.8716885
-9.252307,-0.5023622
1.8851502,0.7534046
-6.2102575,-3.5995402000000003
-6.7633342999999995,-3.8117585
-5.2493050000000006,-2.641473
1.8288779999999998,-1.0645383999999998
0.049525507,-0.33277115
-6.6080685,-2.6024778
-6.5905504,-3.0284524
-9.057993,-1.0731165
2.2609253,-0.59490085
-11.736728999999999,-2.442354
-11.543498,-2.6892840000000002
-7.678667999999999,-4.4781365
-7.0199017999999995,-4.649864
-7.5061693,-3.694516
-7.417712,-3.652802
-9.405422999999999,-7.5523424
-10.924187,-2.379421
-10.860698,-2.3608568
1.1194612,0.19827905
-3.7380233,-2.0135427
1.477666,0.6103946
1.3601676,-0.46309683
1.3088481,-0.31848827
1.8129601000000002,-1.2946055
4.7582073,0.7342691
1.1287214,-1.1211526000000003
1.5914504999999999,0.9188521999999999
1.4106014,1.0143411
1.7658651,0.80634195
-19.214325,-10.266608999999999
-9.634689,-0.66320395
1.9330133000000003,-0.59707016
-14.690729000000001,-12.227189
-0.21762909,-0.07037365400000001
-18.822086,-10.031096
-9.440375,-1.2339582
1.8040966,0.72599775
1.5690169,0.19609527
-8.138695,-6.6535945000000005
-7.8409424,-6.777069
-6.2206054,-3.0750917999999996
1.5675681000000001,0.7012584
-18.493773,-10.629498
1.8777127,-0.74100286
-13.883779,-11.911483
-18.049997,-9.723564999999999
-17.721638000000002,-10.322017
-17.475922,-10.222203
1.361528,0.29951972
0.8827370000000001,-0.07424641400000001
1.1630235,0.5427549
2.0388486,0.7824057

参数配置

算法 IO 参数
*输入数据包含 header 信息:是
*输入数据分隔符:逗号
*输出文件类型:csv
*输入数据包含 header 信息:是
*输出数据分隔符:逗号
算法参数
*标签列:0
*预测列:1
*采样比例:0.8
* 组数:100

输出数据





评估报告








聚类任务评估

原理

算法说明

此算子可以通过多种评价指标对聚类任务进行评估,包括调整兰德系数,调整互信息指数,标准化互信息指数,互信息指数,V-measure ,轮廓系数,CH_score ,戴维森堡丁指数(DBI)。其中调整兰德系数,调整互信息指数,标准化互信息指数,互信息指数,V-measure 这五种指标需要数据中包含真实标签,而轮廓系数,CH_score ,戴维森堡丁指数(DBI)不需要给定真实标签。

参数配置

算法 IO 参数
*输入文件类型:格式包括以下两种:
csv :csv 文件
*输入数据是否包含 header 信息:默认为“是”。
*输入数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
parquet :列式存储格式 parquet
*输出文件类型:格式包括以下两种:
csv :csv 文件
*输出数据是否包含 header 信息:默认为“是”。
*输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
parquet :列式存储格式 parquet
*预测标签列:预测标签值所在列,从 0 开始计数,也可以使用列名选择。
*特征列:特征值所在列,从 0 开始编号,可填形式如 a-b、c 或者它们的混合,用英文逗号分割(例如 0-10,15,17-19 表示第 0 到 10 列、15 、17 到 19 列总共 15 列),也可以使用列名选择。
标签列:标签所在列,样本真实的 label ,从 0 开始计数。如果填写,可以输出调整兰德系数,调整互信息指数,标准化互信息指数,互信息指数,V-measure ,轮廓系数,CH_score ,戴维森堡丁指数(DBI);如果不填写,则只输出轮廓系数,CH_score ,戴维森堡丁指数(DBI)。

Demo

输入数据示例

示例第一行为列名,之后的每一行为一条数据,前两列为特征数据,第三列是聚类预测值。
A,B,prediction
0,0,1
1,1,1
1,0,1
0,1,1
3,0,0
4,0,0
3,1,0
4,1,0

参数配置

算法 IO 参数
* 输入文件类型:csv
* 输入数据包含 header 信息:是
* 输入数据分隔符:逗号
* 输出文件类型:csv
* 输入数据包含 header 信息:是
* 输出数据分隔符:逗号
* 预测标签列:2
* 特征列:0-1
标签列:无

输出数据

轮廓系数,CH_score,戴维森堡丁指数(DBI)
0.621771677957192,27,0.471404520791032

评估报告