目前,我遇到了在高度稀疏的数据集上使用支持向量机的问题。问题是我有N*M数据集,其中N个示例数和M个特征数。每个N几乎没有10个特征呈现。
到目前为止,我将这些特征表示为二进制向量,即,如果该特征在给定的0(如果现在)中存在,则为1。的数据集是平衡的,我得到了94%的精度,.Also,ROC是0.93。我正在努力理解为什么这种精确度会很高。
(1)请任何人引导我找到相关的论文,其中稀疏的数据集提供了高精度,我可以尝试找出如此高精度的原因。
(2)我也计划使用SciKit学习。有人能建议我在支持向量机中使用哪种函数吗?支持向量机是为如此高的稀疏性数据集设计的。。
(3)如果有人能试图解释这么高精度背后的原因,那就太好了。
(4)如果我将二进制特征表示改为加权表示,会给我一些优势吗?
发布于 2014-07-21 11:15:12
首先,稀疏的训练数据并不一定意味着分类的准确性很低。如果您能够找到一个很好的决策边界,那么数据是否稀疏并不重要。请记住,支持向量本身是数据的一个非常小(=稀疏)子集,但它们仍然足以用于分类目的。与机器学习的情况一样,算法的结果在很大程度上取决于问题域和参数的选择。
对于您的第二个问题,"svm稀疏数据“的第一个google结果显示了以下链接:http://scikit-learn.org/stable/modules/svm.html
至于第四个问题,你只有在尝试过之后才能知道答案,没有人能够预测结果,而不知道更多关于你的方法和数据的细节。
https://stackoverflow.com/questions/24857435
复制相似问题