这是一个非常普遍的问题,因为我仍然处于机器学习的学习阶段。我有一些关于有问题的仪表的实用数据。即使这些数据是“时间序列”,我也相信我可以对数据进行多类分类(查看3个标签),但在我沿着这条道路前进之前,我想听听一些意见。
我一直在做一些功能工程来派生其他数据点,以帮助分类过程(下面的例子是列"Error1“和"Error2")。
仪表分为两类,一类是估计问题="1",另一类是非估计问题="0“。
我的数据集大致如下(我有几个其他错误特性):
Estimated Meter ID Date Days
我是ML的初学者。
我尝试使用600张图像(300pos和300neg)在Matlab中训练线性支持向量机;然后,我将训练后的模型应用于我的400张测试图像。如果我将线性支持向量机的成本设置为0,1;1,0,结果成功率约为65%,而交叉验证分类误差约为0.28,那么我尝试了各种成本值,发现0,1; x,0,x越高,分类误差越低。然而,令我困惑的是,在分类错误不断减少的同时,成功率也在急剧下降。以下是我的代码:
% each row represents an image and each column represents a pixel value.
% each image row has