我已经建立了二进位文本分类器使用支持向量机对TF-以色列国防军的新闻文章(体育:非体育)。
但我不知道如何使用这个模型对新文档进行分类。因为TF-国防军是根据所有其他文件中一个词的出现情况计算的。
每次收到新的分类文档时,是否都有合并、测试和培训数据?每次都会改变模型。
我是不是遗漏了什么?我认为,虽然支持向量机在TF-国防军上取得了很好的效果,但不能用于生产.
还有其他方法来解决这个问题吗?
让我们举个例子
Training Set:
Doc_1: Chelsea won the match. {Sports}
Doc_2: India won the third test match against Austrailia {Sports}
Doc_3: I want to sleep {Non-Sport}
Doc_4: 13 palace to see in Auckland {Non-Sport}
New Testing Set:
Doc_5: Climate change impacts in Austrailia现在,如果不将该文档与培训集合并,我如何才能在Doc_5中找到以色列国防军的"Austrailia“得分?
由于Doc_5中包含"Austrailia“一词,它将改变Doc_1中”澳大利亚“的以色列国防军得分,因此模型需要再培训。
发布于 2017-03-31 12:04:39
你的模型是什么?
大多数流行的图书馆都有独立于培训部分的评分功能。您应该能够将新文档传递给经过训练的模型的得分函数,并返回预测的类。
发布于 2017-03-31 12:08:35
所以你的TF-国防军只使用训练装置训练。它将决定单词出现的频率。如果你给TF-国防军看一个它还没见过的新词,那么它就会忽略它。它将只使用其训练集中的单词。所以,不,你没有重新训练你的模型后,你已经建成了。一旦,您经过训练阶段,您的TF-以色列国防军,这是一个字库,您的算法可以检测。
发布于 2017-03-31 12:34:25
通过TF-下手,你得到了用来训练你的支持向量机模型的重要词汇。因此,当您通过测试数据时,只有通过TF-IDF选择的单词(特征)才是重要的,并将被支持向量机模型用来预测标签。
只需确保用于训练支持向量机的矩阵在训练和测试上都是相似的。
https://datascience.stackexchange.com/questions/18025
复制相似问题