首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >关于文本分类任务迁移学习的任何有用提示

关于文本分类任务迁移学习的任何有用提示
EN

Data Science用户
提问于 2020-07-21 08:07:40
回答 1查看 175关注 0票数 2

我正在做一个监督的二进制文本分类任务。

我想对A、B和C站点的文本进行分类。

对于每个站点的文本来说,域内性能看起来都很好。(92%~94%)。

然而,如果我将一个站点的文本培训模型直接应用到另一个站点的文本上(不进行微调),那么性能就会大大降低。(7%-16%的精度降级)。

我已经尝试过的方法:

  1. Doc2vec嵌入(对一个站点的文本进行训练)+ logistic回归。
  2. Bert嵌入+ logistic回归。(使用bert -as-a-服务来生成基于google预先培训的bert模型的嵌入)。
  3. TF-国防军+ logistic回归。
  4. 预先训练的Word2vec嵌入(文本的平均单词嵌入)+ logistic回归。

所有这些方法都不是很好。

我知道,业绩降级是不可避免的,但我想得到一个可能3% - 5%的降级。

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-07-22 23:59:49

一般来说,根据“任何其他东西”来识别一种类型的文本是一个相当困难的问题,因为案文的多样性很大,因此不可能有任何良好的“其他任何东西”的代表性样本。

通常,这个问题被看作是一个单级分类问题:学习算法的思想是只捕获代表正类的内容,将其他任何东西视为负面的。据我所知,这主要用于作者识别和相关的测定仪任务。PAN车间系列提供了大量关于这些任务的最新方法和数据集。

也可以将问题描述为二进制分类,但必须对训练集中的负实例具有很大的创造性。可能您当前方法的主要问题是:您的负面实例仅是“随机地从站点的所有其他主题中选择”。这意味着分类器只知道来自培训站点的文本,因此它不知道如何处理任何看起来不像培训数据中任何内容的新文本。一种增加负实例多样性的方法是利用其中一个正实例中出现的几个随机词自动生成google查询,然后下载Google检索的任何文本作为负实例。

二进制分类的另一个问题是正/负实例的分布:如果您训练的模型为50/50正/负,则该模型期望在默认情况下每个模型都有50%的概率。当应用于测试集时,这会造成巨大的偏差,测试集主要包含负实例,特别是当这些实例看起来不像在培训期间看到的负面实例时。

最后,要注意语义主题与写作风格之间的区别,因为这两种类型的特征通常非常不同:在前一种情况下,停止词通常被移除,内容词(名词、动词、形容词)很重要(因此使用TF下手之类的东西)。后者则相反:停止词和标点符号应该保留(因为它们是很好的写作风格指标),而内容词被删除是因为它们倾向于偏袒主题而不是风格。在基于字符的测定仪特征中,n-图显示性能良好.尽管不太清楚它为什么会起作用!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/78069

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档