首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用二进制文本分类器(使用支持向量机与TF构建)来分类新的文本文档?

如何使用二进制文本分类器(使用支持向量机与TF构建)来分类新的文本文档?
EN

Data Science用户
提问于 2017-03-31 11:16:22
回答 3查看 2.3K关注 0票数 1

我已经建立了二进位文本分类器使用支持向量机对TF-以色列国防军的新闻文章(体育:非体育)。

但我不知道如何使用这个模型对新文档进行分类。因为TF-国防军是根据所有其他文件中一个词的出现情况计算的。

每次收到新的分类文档时,是否都有合并、测试和培训数据?每次都会改变模型。

我是不是遗漏了什么?我认为,虽然支持向量机在TF-国防军上取得了很好的效果,但不能用于生产.

还有其他方法来解决这个问题吗?

让我们举个例子

代码语言:javascript
运行
复制
Training Set:
Doc_1: Chelsea won the match. {Sports}
Doc_2: India won the third test match against Austrailia {Sports}
Doc_3: I want to sleep {Non-Sport}
Doc_4: 13 palace to see in Auckland {Non-Sport}

New Testing Set:
Doc_5: Climate change impacts in Austrailia

现在,如果不将该文档与培训集合并,我如何才能在Doc_5中找到以色列国防军的"Austrailia“得分?

由于Doc_5中包含"Austrailia“一词,它将改变Doc_1中”澳大利亚“的以色列国防军得分,因此模型需要再培训。

EN

回答 3

Data Science用户

回答已采纳

发布于 2017-03-31 12:04:39

你的模型是什么?

大多数流行的图书馆都有独立于培训部分的评分功能。您应该能够将新文档传递给经过训练的模型的得分函数,并返回预测的类。

票数 1
EN

Data Science用户

发布于 2017-03-31 12:08:35

所以你的TF-国防军只使用训练装置训练。它将决定单词出现的频率。如果你给TF-国防军看一个它还没见过的新词,那么它就会忽略它。它将只使用其训练集中的单词。所以,不,你没有重新训练你的模型后,你已经建成了。一旦,您经过训练阶段,您的TF-以色列国防军,这是一个字库,您的算法可以检测。

票数 1
EN

Data Science用户

发布于 2017-03-31 12:34:25

通过TF-下手,你得到了用来训练你的支持向量机模型的重要词汇。因此,当您通过测试数据时,只有通过TF-IDF选择的单词(特征)才是重要的,并将被支持向量机模型用来预测标签。

只需确保用于训练支持向量机的矩阵在训练和测试上都是相似的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/18025

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档