首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >SVM (假信息检测)中反意义文本的识别

SVM (假信息检测)中反意义文本的识别
EN

Data Science用户
提问于 2022-03-02 09:39:47
回答 1查看 25关注 0票数 1

目前,我正在使用支持向量机( Support )开发一个二进制文本分类模型(假信息检测),并在Python中使用TF作为文本向量器。我已经试过训练这个模型,但在测试时,我遇到了一个问题:

例如,我有一个模型预测“新冠肺炎今天正在发生”为“真”,但在将文本改为“今天没有发生”之后,它仍然被预测为“真”,在其中应该被预测为“假”。

在这种情况下,问题在哪里?

如何使算法能够像上面提到的那样,对意义相反的文本进行分类?

注意:

  • 我在建模中使用的数据集中的文本是“新冠肺炎今天正在发生”。
  • 我还使用predict_proba来知道文本为0(False)或1(True)的概率。它表明,我创建的两个条目在predict_proba中具有相同的输出,我可以这样说,它将两个条目读入相同的内容(可能是“新冠肺炎今天正在发生”)。
EN

回答 1

Data Science用户

发布于 2022-03-02 21:04:07

您可能应该降低对ML模型所能达到的目标的期望。

  • 首先,这是一个统计过程:模型只是预测最有可能的标签。不可避免地,一些错误将会发生。
  • 这个模型不了解任何意义,它只是根据训练期间学到的参数来计算标签的概率。
  • 包字表示法,像TFIDF一样,是对文本意义的一种非常简单的表达。使用这种表示形式,模型只能有“规则”,例如:“如果实例包含单词x,那么标签更有可能是True”。这种表示法很好地处理简单的文本分类任务,其中一些特定的词组与标签有很强的关联。这不足以正确处理复杂的语言结构,如否定,隐喻,讽刺,条件词,.
  • 还有更复杂的文本表示形式可用,但据我所知,它们中没有一个能够实现近乎完美的自然语言理解,这是这项任务所需要的。如果您想要在此任务中实现最先进的系统状态,则必须在自然语言推理中研究最新的状态。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/108675

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档