文章/答案/技术大牛

发布

社区首页 >问答首页 >SVM (假信息检测)中反意义文本的识别

问SVM (假信息检测)中反意义文本的识别
EN

Data Science用户

提问于 2022-03-02 09:39:47

回答 1查看 25关注 0票数 1

目前，我正在使用支持向量机( Support )开发一个二进制文本分类模型(假信息检测)，并在Python中使用TF作为文本向量器。我已经试过训练这个模型，但在测试时，我遇到了一个问题：

例如，我有一个模型预测“新冠肺炎今天正在发生”为“真”，但在将文本改为“今天没有发生”之后，它仍然被预测为“真”，在其中应该被预测为“假”。

在这种情况下，问题在哪里？

如何使算法能够像上面提到的那样，对意义相反的文本进行分类？

注意：

我在建模中使用的数据集中的文本是“新冠肺炎今天正在发生”。
我还使用predict_proba来知道文本为0(False)或1(True)的概率。它表明，我创建的两个条目在predict_proba中具有相同的输出，我可以这样说，它将两个条目读入相同的内容(可能是“新冠肺炎今天正在发生”)。

text-classification

tfidf

machine-learning

svm

supervised-learning

回答 1

Data Science用户

发布于 2022-03-02 21:04:07

您可能应该降低对ML模型所能达到的目标的期望。

首先，这是一个统计过程:模型只是预测最有可能的标签。不可避免地，一些错误将会发生。
这个模型不了解任何意义，它只是根据训练期间学到的参数来计算标签的概率。
包字表示法，像TFIDF一样，是对文本意义的一种非常简单的表达。使用这种表示形式，模型只能有“规则”，例如：“如果实例包含单词x，那么标签更有可能是True”。这种表示法很好地处理简单的文本分类任务，其中一些特定的词组与标签有很强的关联。这不足以正确处理复杂的语言结构，如否定，隐喻，讽刺，条件词，.
还有更复杂的文本表示形式可用，但据我所知，它们中没有一个能够实现近乎完美的自然语言理解，这是这项任务所需要的。如果您想要在此任务中实现最先进的系统状态，则必须在自然语言推理中研究最新的状态。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/108675

复制

相似问题

问SVM (假信息检测)中反意义文本的识别
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SVM (假信息检测)中反意义文本的识别EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SVM (假信息检测)中反意义文本的识别
EN