首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >高度稀疏数据集上的支持向量机

高度稀疏数据集上的支持向量机
EN

Stack Overflow用户
提问于 2014-07-21 03:44:43
回答 1查看 3.1K关注 0票数 0

目前,我遇到了在高度稀疏的数据集上使用支持向量机的问题。问题是我有N*M数据集,其中N个示例数和M个特征数。每个N几乎没有10个特征呈现

到目前为止,我将这些特征表示为二进制向量,即,如果该特征在给定的0(如果现在)中存在,则为1。的数据集是平衡的,我得到了94%的精度,.Also,ROC是0.93。我正在努力理解为什么这种精确度会很高。

(1)请任何人引导我找到相关的论文,其中稀疏的数据集提供了高精度,我可以尝试找出如此高精度的原因。

(2)我也计划使用SciKit学习。有人能建议我在支持向量机中使用哪种函数吗?支持向量机是为如此高的稀疏性数据集设计的。

(3)如果有人能试图解释这么高精度背后的原因,那就太好了。

(4)如果我将二进制特征表示改为加权表示,会给我一些优势吗?

EN

回答 1

Stack Overflow用户

发布于 2014-07-21 11:15:12

首先,稀疏的训练数据并不一定意味着分类的准确性很低。如果您能够找到一个很好的决策边界,那么数据是否稀疏并不重要。请记住,支持向量本身是数据的一个非常小(=稀疏)子集,但它们仍然足以用于分类目的。与机器学习的情况一样,算法的结果在很大程度上取决于问题域和参数的选择。

对于您的第二个问题,"svm稀疏数据“的第一个google结果显示了以下链接:http://scikit-learn.org/stable/modules/svm.html

至于第四个问题,你只有在尝试过之后才能知道答案,没有人能够预测结果,而不知道更多关于你的方法和数据的细节。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24857435

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档