首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基于Transformer的百万级文本分类技术

基于Transformer的百万级文本分类技术

原创
作者头像
用户11764306
发布2025-08-12 09:23:28
发布2025-08-12 09:23:28
1120
举报

文本分类是自然语言理解领域最基础的任务。例如,某中心智能助手的用户请求需要按领域分类(天气、音乐、智能家居等),许多自然语言处理应用依赖词性分类解析器。对于类别较少的任务,最佳性能系统通常采用BERT、XLNet等预训练Transformer模型。但Transformer模型的复杂度随输入序列长度呈平方增长,随类别数量线性增长,面对数十万甚至百万级分类任务时变得不切实际。

在某计算协会知识发现与数据挖掘年会(KDD)发表的论文中,提出了一种针对极端多标签分类的Transformer改进方法。该模型通过两阶段处理实现高效分类:首先用Transformer模型将输入分配到类别簇,再用简单线性分类器从簇中选出具体类别。实验表明,该方法在四个数据集上的分类准确率均超越现有最佳系统。

核心创新点

  1. 采用XLNet生成类别名称或样本输入的嵌入向量,通过语义相似度进行类别聚类
  2. 设计一对多线性分类器,通过多重决策边界交集精确识别目标类别
  3. 创新性负样本构造方法:既从同簇其他类别采样,也利用模型预测的高概率错误簇

实验对比了九种基准系统,在单标签精确匹配任务上全面领先。虽然相较于第二名AttentionXML系统的优势幅度约1%,但两种方法存在互补潜力。该方法使Transformer模型参数量减少约75%,同时保持分类精度,为大规模文本分类任务提供了实用解决方案。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档