在文本分类中，如何对不属于“未知”类别的文本进行分类？

在文本分类中，对于不属于"未知"类别的文本进行分类可以采用以下方法：

多类别分类模型：使用多类别分类模型对文本进行训练和分类。多类别分类模型可以通过监督学习算法（如朴素贝叶斯、支持向量机、深度学习模型等）进行训练，将文本分为预定义的多个类别。在训练过程中，需要使用已标注好的文本数据集进行模型训练，以学习不同类别之间的特征和区别。对于不属于"未知"类别的文本，模型会将其分到最接近的类别中。
二阶段分类：在第一阶段，使用一个二分类模型将文本分为"未知"和"已知"两类。对于被分类为"已知"类别的文本，再使用多类别分类模型对其进行进一步分类。这种方法可以先将文本进行初步的分类，然后再进行更细粒度的分类，提高分类的准确性。
异常检测：将不属于"未知"类别的文本视为异常数据，使用异常检测算法（如孤立森林、聚类算法等）对文本进行分类。异常检测算法可以通过学习正常文本的分布特征，将与正常文本差异较大的文本判定为异常。这种方法适用于在训练数据中没有包含所有类别的情况下，对新出现的类别进行分类。
人工干预：对于不属于"未知"类别的文本，可以通过人工干预的方式进行分类。将这些文本交给专家或人工智能工程师进行手动分类，以建立新的类别或调整已有类别。

腾讯云相关产品和产品介绍链接地址：

腾讯云自然语言处理（NLP）：https://cloud.tencent.com/product/nlp
腾讯云机器学习平台（MLPaaS）：https://cloud.tencent.com/product/mlpaas
腾讯云人工智能开放平台（AI Lab）：https://cloud.tencent.com/product/ai-lab
腾讯云数据智能（Data Intelligence）：https://cloud.tencent.com/product/di
腾讯云大数据（Big Data）：https://cloud.tencent.com/product/bigdata

在文本分类中，如何对不属于“未知”类别的文本进行分类？

nlp、text-classification

我正在解决一个NLP问题，将文本分为四类。1.体育2.娱乐3.占星术4.未知我已经为体育、娱乐、占星术创建了一个训练数据集。但是如何为“未知”类别创建训练数据集，或者如何将不属于前三个类别的文本分类到最后一个类别，即“未知类别”？

浏览 10提问于2018-09-03得票数 1

3回答

如何处理机器学习分类问题中的“未知”类别？

machine-learning、classification、class-imbalance、classifier

教程问题以二进制或多类分类的形式出现，其中所有的数据都有适当的标签。在实际应用程序中，有不属于任何类别且不能分类的传入数据。我们如何处理这些属于“未知”类别的数据？“未知”的宇宙可能远不止“已知”。因此，“未知”的数据可能过多，导致阶级不平衡。我们如何训练模型来处理“未知”数据？还是我们忽视了它？

浏览 0提问于2018-09-02得票数 5

回答已采纳

1回答

将文本分类为预定义的类别

python、svm、text-classification

我试图将文本数据分类为几个类别。但是在数据集中，可以有不属于任何定义类别的数据。为了实现该解决方案，我目前正在使用SVM文本分类器。我打算把另一个类别定义为，这是一个正确的方法吗？

浏览 1提问于2020-01-26得票数 1

1回答

在这种情况下，二进制分类是正确的选择吗？

classification、nlp、bert、text-classification、binary-classification

我对文本分类有点陌生，如果你们能帮忙的话，我有一些问题要问：我正在使用一个基于BERT的二进制分类

浏览 0提问于2021-12-08得票数 1

回答已采纳

1回答

在ML文本分类中，如果文本不属于任何类别，怎么办？

python-3.x、machine-learning、logistic-regression

对于体育、政治、商务、娱乐等新闻类型，我采用逻辑回归的方法进行文本分类，而不属于上述类别的文本也被预测为其中之一。如何在机器学习中防止这种情况？另外，如何将类别外文本添加到other_category标签中？

浏览 0提问于2020-05-05得票数 1

回答已采纳

2回答

在多类分类中是否可能有一个默认的类？

machine-learning、scikit-learn、multiclass-classification

在一般的文本分类问题中，训练机器学习模型来检测一个文本是否属于N个类中的一个，它总是在N中产生一个值。即使传递给模型的文本远远超出了N类中的任何一个(比如您为电影类型训练了它的类别，但是有人将它的配方传递给了分类器)，它总是会选择N中的一个作为输出，即使传递给它的文本不属于任何一个类。是否有方法为“未知”有一个

浏览 0提问于2019-09-20得票数 2

1回答

朴素贝叶斯文本分类在一个类别中失败。为什么？

machine-learning、nlp、classification、bayesian、document-classification

我想提高准确性，所以我决定实现37个双向分类器(是其中之一)，这些分类器将对给定的文本负责：我将通过依次应用它们来确定文本的类别但是我发现第一个分类器有问题，它总是在"specific_category“类中失败。我有培训数据- 37类，100份文件，每个类别的大小相同。然后，我总是失败在“农业”类别，虽然文本<

浏览 0提问于2013-05-17得票数 3

回答已采纳

2回答

Scikit-学习默认类

class、scikit-learn、classification、svm、naivebayes

我正在使用scikit learn对一些文本进行分类，我有10个班级，我正在使用svm.SVC(kernel='linear',probability=True,class_weight='balanced')、MultinomialNB()和tree.DecisionTreeClassifier()进行分类。树分类器做得很好，三个分类器的准确率都在80-90%(这对我的应用程序来说已经足够了)。问题是有一些<e

浏览 3提问于2016-10-18得票数 2

1回答

文本分类-处理不属于任何类别的文本

python、nlp、text-classification

我正在开发一个文本分类器，并找到了一些可靠的选择。然而，我正在努力处理的一件事是处理不适合任何预定义类别的文本。这肯定会是我们在真实数据中看到的，所以我需要了解如何处理它。我认为这是一个问题，因为如果文本没有遇到类别，算法仍然要求该输出等于1，并且它仍然会为该文本分配一些任意标签，即使它确实不应该这样做。有没有人对一些我可以尝试解决的方法有什么建议？谢谢

浏览 23提问于2021-05-13得票数 0

2回答

文本分类:分类N类与其他类

machine-learning、classification、predictive-modeling、multiclass-classification、text-classification

我有一个要求，当我试图分类两种类型的文本数据，即，我有两个类别来分类我的数据。我可以通过文字向量，降维，然后将数据输入到LinearSVC进行分类，从而得到可接受的结果。我知道tfidf在这方面会有帮助，但是有什么方法可以应用到单词向量中，我不想失去它对未知的类似数据的预测能力吗？这方面的后续问题是，除了我培训过的两个类之外，还有来自其他类的数据。我希望我的模型能够预测数据不属于这两个类中

浏览 0提问于2020-06-23得票数 2

回答已采纳

1回答

组合多分类器建立多模态分类器

classification、svm

假设我有兴趣对由不同内容类型组成的一组实例进行分类，例如：图像给出一个示例，我将其细分为文本和图像。第一个支持向量机二进制分类器(SVM-text)只对文本进行训练，将文本分类为类C的relevant/non-relevant。S

浏览 0提问于2014-09-16得票数 3

回答已采纳

1回答

多任务学习

nlp、machine-learning、stanford-nlp

有人能用简单直观的方式解释一下多任务学习吗？可能一些现实世界的问题是useful.Mostly，这些天我看到许多人正在使用它来完成自然语言处理任务。

浏览 4提问于2011-12-31得票数 5

回答已采纳

1回答

python中给定的特定集群的文档聚类

python、nlp、clustering、data-analysis

我们如何将文本分类到python中给定数量的集群中？我知道可以使用一些机制来指定集群的数量，比如k-均值，但是我需要将给定的集群分类到特定的类别。在python中有实现这一目标的方法吗？我在谷歌上搜索过但找不到合适的匹配。提前谢谢！！

浏览 0提问于2021-07-19得票数 0

1回答

scikit学习对无关(域外)数据进行分类

machine-learning、scikit-learn、classification、bayesian

我已经使用20个域训练了我的分类器，使用MultinomialNB。但问题是，假设我使用20个域中的文本进行查询，即使它对该文本进行了分类。查询不属于这些域中的任何一个，即使它为任何域提供33%的结果。如何显示属于域外查询的0结果？另外，有没有办法在查询中查看stopwor

浏览 0提问于2014-09-03得票数 0

2回答

利用机器学习对大文本进行分类

python、text、machine-learning、classification、text-classification

我有一个大型的xls文档，其中每行都包含一个问题id、它的描述以及expl的分类:类别1- A- a1描述功能是一个长文本。我正在考虑多项logistic回归，但我读到它需要数值数据。我是否必须将文档中使用的所有单词编成词典才能给它一个数值？我也希望每个新条目都有分数来分类最近的类(对于一个新的描述X，类别2-B-b1给出了8

浏览 4提问于2018-03-07得票数 1

回答已采纳

1回答

自然语言分类器返回未训练项目的分类

ibm-watson、nl-classifier

我对NLC是如何工作的感到困惑。我的期望是，当它被要求对文本进行分类时，它应该没有关系或训练数据可供学习，它应该返回没有结果或具有非常低置信度分数的结果。我已经用一组训练数据训练了一个模型，当我试图对训练数据之外的文本进行分类时，我得到了高置信度值(~60%)的结果。这是我的训练数据的一个例子：bar,1,2,3,4当我试图对文本进行分类<

浏览 5提问于2017-04-12得票数 0

1回答

如何在UML中定义未知对象或元素？

uml

如果我有一组未知的元素，例如person、servers等，那么有什么方法可以在UML中对这些元素进行分类吗？例如，如何对没有名称的服务器进行分类，因为该信息丢失了，并且没有文档或其他信息？UML有可识别的占位符名称吗？

浏览 3提问于2013-12-02得票数 0

回答已采纳

1回答

必须使用复杂的还是几个简单的模型？

machine-learning

我不明白模型是如何组织起来的。一般来说，我是否需要为我的tree structure的每个叶子建立一个模型来<e

浏览 2提问于2018-07-05得票数 0

3回答

具有大量类别的分类

machine-learning、neural-network

我想创建一个ML模型，它可以识别给定图像中的哪个人。考虑到大量的人(类)，最好的方法是什么？

浏览 1提问于2019-12-12得票数 3

2回答

机器学习-单级、二元类和多类分类的区别在哪里？

machine-learning、data-mining、classification、categorical-data

单类、二元类和多类分类的区别是什么？我就不能用上面提到的所有方法来达到我的目标吗？例如，我可以将C1、C2、C3和C4描述为四种不同的二进制分类训练集，并使用经过训练的模型来标记未知的数据集.对于多项式

浏览 0提问于2014-10-20得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在文本分类中，如何对不属于“未知”类别的文本进行分类？

相关·内容

在文本分类中，如何对不属于“未知”类别的文本进行分类？

如何处理机器学习分类问题中的“未知”类别？

将文本分类为预定义的类别

在这种情况下，二进制分类是正确的选择吗？

在ML文本分类中，如果文本不属于任何类别，怎么办？

在多类分类中是否可能有一个默认的类？

朴素贝叶斯文本分类在一个类别中失败。为什么？

Scikit-学习默认类

文本分类-处理不属于任何类别的文本

文本分类:分类N类与其他类

组合多分类器建立多模态分类器

多任务学习

python中给定的特定集群的文档聚类

scikit学习对无关(域外)数据进行分类

利用机器学习对大文本进行分类

自然语言分类器返回未训练项目的分类

如何在UML中定义未知对象或元素？

必须使用复杂的还是几个简单的模型？

具有大量类别的分类

机器学习-单级、二元类和多类分类的区别在哪里？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐