首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >生成式AI改进极端多标签分类

生成式AI改进极端多标签分类

原创
作者头像
用户11764306
发布2026-05-06 17:29:01
发布2026-05-06 17:29:01
880
举报

使用生成式AI改进极端多标签分类

通过强制对语义相关标签进行层次聚类,可提升稀有“长尾”分类类别的性能。

作者:Taehee Jung

时间:2023年5月23日

阅读时长:4分钟

会议

EACL 2023

相关论文

《极端多标签分类中的聚类引导标签生成》

多年来,研究人员一直在探索极端多标签分类(XMC)这一课题,即当可能分类类别空间很大(例如数百万个标签)时对输入进行分类。在此过程中,多次推动了技术发展。但先前的工作是在经典分类问题的背景下进行的,模型为空间中的每个标签计算概率。在一篇新论文中,将XMC视为一个生成式问题:对于每个输入词序列,模型生成一个输出标签序列。这使得能够将大语言模型的能力应用于XMC任务。

然而,在这种背景下,与经典背景一样,困难在于XMC标签空间中的大多数标签属于长尾分布,在训练数据中代表性样本很少。过去的工作通过将标签空间组织成层次结构来解决这个问题:首先对输入进行粗分类,然后通过遍历层次树逐步细化分类,最终到达一个语义相关概念的簇。这有助于模型从相关但具有不同标签的示例中学习通用的分类原则,并降低模型给出完全错误标签的可能性。

在论文中,做了类似的工作,使用一个辅助网络将标签分组到簇中,并利用簇信息来指导生成模型的输出。在训练过程中,实验了两种不同的方式来提供这种指导。第一种方式是将指示哪些簇适用于某个文本输入的位向量直接馈送到生成模型中。另一种方式是在多任务目标上微调模型:模型同时学习根据簇名称预测标签以及根据文本预测簇名称。

在测试中,将这两种方法与最先进的XMC分类器以及在没有标签簇的情况下针对分类任务微调的生成模型进行了比较。总体而言,带有聚类的生成模型性能优于传统分类器。在八项实验中的六项中,至少有一种聚类引导模型在整个数据集上的性能与基线生成模型持平或有所提升。在六项关于长尾(稀有)标签的实验中,至少有一种聚类引导模型优于生成式基线。

架构

任务模型接收一个文档(例如维基百科条目)作为输入,并输出一组表征其内容的标签。为了微调生成模型,使用了包含示例文本以及人工标注者为其标注的标签的数据集。

作为基线生成模型,使用了T5语言模型。BERT是仅编码器的语言模型,GPT-3是仅解码器的语言模型,而T5是编码器-解码器模型,这意味着它使用双向而非单向编码:当预测标签时,它可以访问整个输入序列。这非常适合本任务场景,因为标签的顺序不如其准确性重要,并且需要最能表征整个文档(而不仅仅是文档的某些部分)的标签。

为了创建标签簇,使用预训练模型为训练集中每个文档的单词生成嵌入——即将其映射到一个表示空间,在该空间中距离的接近程度表示语义相似性。给定标签的嵌入则是包含该标签的所有文档嵌入的平均值。一旦标签被嵌入,使用k-means聚类将它们组织成簇。

在XLGen-BCL架构中,文本的真实标签簇在位数组中被表示为1。在XLGen-MCG架构中,模型在多任务目标上训练,同时学习将簇编号映射到标签以及将文本映射到簇编号。

在第一个架构(称为XLGen-BCL)中,给定文档的真实标签簇在位数组中被表示为1,所有其他簇表示为0。训练期间,该数组作为额外输入传递给模型,但在推理时,模型仅接收文本。

在另一个架构(XLGen-MCG)中,簇被分配编号。模型基于多任务目标进行训练,同时学习将簇编号映射到标签以及将文本映射到簇编号。推理时,模型仅接收文本。首先,模型为文本分配一组簇编号,然后将簇编号映射到标签。

实验

使用四个数据集评估了两种聚类引导生成模型和四个基线模型。在每个数据集上,既评估了整体性能,也评估了在稀有(长尾)标签上的性能。在评估整体性能时,使用了F1分数(同时考虑假阳性和假阴性),并使用了两种不同的方法对每个标签的F1分数进行平均。宏观平均只是对所有标签的F1分数进行简单平均。微观平均则对所有标签的真阳性、假阳性和假阴性进行求和,并计算全局F1分数。

在评估长尾标签的性能时,考虑了在训练数据中仅出现一次或从未出现的标签。

还使用正类与未标注数据(PU)进行了一组实验。即,对于每个训练样本,移除一半的真实标签。由于从一个样本中移除的标签可能仍然出现在另一个样本中,它仍然可以作为输出标签。该实验评估了模型在不同标签之间的泛化能力。在PU数据上,生成模型显著优于传统分类器,且XLGen-MCG模型显著优于生成式基线。

研究领域

对话式AI

标签

极端多标签分类、生成式AI、EACLFINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 使用生成式AI改进极端多标签分类
    • 会议
    • 相关论文
    • 架构
    • 实验
    • 研究领域
    • 标签
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档