文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用二进制文本分类器(使用支持向量机与TF构建)来分类新的文本文档？

问如何使用二进制文本分类器(使用支持向量机与TF构建)来分类新的文本文档？
EN

Data Science用户

提问于 2017-03-31 11:16:22

回答 3查看 2.3K关注 0票数 1

我已经建立了二进位文本分类器使用支持向量机对TF-以色列国防军的新闻文章(体育:非体育)。

但我不知道如何使用这个模型对新文档进行分类。因为TF-国防军是根据所有其他文件中一个词的出现情况计算的。

每次收到新的分类文档时，是否都有合并、测试和培训数据？每次都会改变模型。

我是不是遗漏了什么？我认为，虽然支持向量机在TF-国防军上取得了很好的效果，但不能用于生产.

还有其他方法来解决这个问题吗？

让我们举个例子

Training Set:
Doc_1: Chelsea won the match. {Sports}
Doc_2: India won the third test match against Austrailia {Sports}
Doc_3: I want to sleep {Non-Sport}
Doc_4: 13 palace to see in Auckland {Non-Sport}

New Testing Set:
Doc_5: Climate change impacts in Austrailia

现在，如果不将该文档与培训集合并，我如何才能在Doc_5中找到以色列国防军的"Austrailia“得分？

由于Doc_5中包含"Austrailia“一词，它将改变Doc_1中”澳大利亚“的以色列国防军得分，因此模型需要再培训。

classification

svm

text

回答 3

Data Science用户

回答已采纳

发布于 2017-03-31 12:04:39

你的模型是什么？

大多数流行的图书馆都有独立于培训部分的评分功能。您应该能够将新文档传递给经过训练的模型的得分函数，并返回预测的类。

票数 1

Data Science用户

发布于 2017-03-31 12:08:35

所以你的TF-国防军只使用训练装置训练。它将决定单词出现的频率。如果你给TF-国防军看一个它还没见过的新词，那么它就会忽略它。它将只使用其训练集中的单词。所以，不，你没有重新训练你的模型后，你已经建成了。一旦，您经过训练阶段，您的TF-以色列国防军，这是一个字库，您的算法可以检测。

票数 1

Data Science用户

发布于 2017-03-31 12:34:25

通过TF-下手，你得到了用来训练你的支持向量机模型的重要词汇。因此，当您通过测试数据时，只有通过TF-IDF选择的单词(特征)才是重要的，并将被支持向量机模型用来预测标签。

只需确保用于训练支持向量机的矩阵在训练和测试上都是相似的。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/18025

复制

相似问题

问如何使用二进制文本分类器(使用支持向量机与TF构建)来分类新的文本文档？
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用二进制文本分类器(使用支持向量机与TF构建)来分类新的文本文档？EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用二进制文本分类器(使用支持向量机与TF构建)来分类新的文本文档？
EN