文章/答案/技术大牛

发布

社区首页 >问答首页 >高度稀疏数据集上的支持向量机

问高度稀疏数据集上的支持向量机
EN

Stack Overflow用户

提问于 2014-07-21 03:44:43

回答 1查看 3.1K关注 0票数 0

目前，我遇到了在高度稀疏的数据集上使用支持向量机的问题。问题是我有N*M数据集，其中N个示例数和M个特征数。每个N几乎没有10个特征呈现。

到目前为止，我将这些特征表示为二进制向量，即，如果该特征在给定的0(如果现在)中存在，则为1。的数据集是平衡的，我得到了94%的精度，.Also，ROC是0.93。我正在努力理解为什么这种精确度会很高。

(1)请任何人引导我找到相关的论文，其中稀疏的数据集提供了高精度，我可以尝试找出如此高精度的原因。

(2)我也计划使用SciKit学习。有人能建议我在支持向量机中使用哪种函数吗?支持向量机是为如此高的稀疏性数据集设计的。。

(3)如果有人能试图解释这么高精度背后的原因，那就太好了。

(4)如果我将二进制特征表示改为加权表示，会给我一些优势吗？

machine-learning

svm

sparse-matrix

回答 1

Stack Overflow用户

发布于 2014-07-21 11:15:12

首先，稀疏的训练数据并不一定意味着分类的准确性很低。如果您能够找到一个很好的决策边界，那么数据是否稀疏并不重要。请记住，支持向量本身是数据的一个非常小(=稀疏)子集，但它们仍然足以用于分类目的。与机器学习的情况一样，算法的结果在很大程度上取决于问题域和参数的选择。

对于您的第二个问题，"svm稀疏数据“的第一个google结果显示了以下链接：http://scikit-learn.org/stable/modules/svm.html

至于第四个问题，你只有在尝试过之后才能知道答案，没有人能够预测结果，而不知道更多关于你的方法和数据的细节。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24857435

复制

相似问题

问高度稀疏数据集上的支持向量机
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问高度稀疏数据集上的支持向量机EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问高度稀疏数据集上的支持向量机
EN