孟子轻量化多任务模型已开源，提供出色的 Zero-Shot 及 Few-Shot 能力

原创

澜舟科技

发布于 2022-08-23 14:24:02

1.4K0

发布于 2022-08-23 14:24:02

文章被收录于专栏：澜舟科技 NLP

经过五个月的开发和场景打磨，孟子多任务模型正式开源，提供出色的 Zero-Shot 及 Few-Shot 能力，以 0.22B 的轻量化模型在零样本学习 ZeroCLUE 和小样本学习权威榜单 FewCLUE 榜单均排名第一，大家可通过 Hugging Face Model Hub 或 GitHub 下载使用（链接见下文）。

孟子多任务模型不仅可以实现“一个模型完成多个任务”，还具备极强的泛化能力，无需大量标注数据就可以完成新任务适配，在应用上能够让模型研发和部署维护更加轻量化。

这与澜舟团队自创立以来一直倡导的 “模型轻量化” 技术路线一脉相承——2021 年孟子轻量化预训练模型仅以十亿参数，战胜了众多百亿、千亿参数的大模型，登顶中文语言理解权威评测基准 CLUE 榜单，并在同年 10 月份开源了四个模型（Mengzi-BERT-base、Mengzi-BERT-base-fin、Mengzi-T5-base、Mengzi-Oscar-base）。

此次开源孟子多任务模型是澜舟团队在“模型轻量化”方面又一个重要进展，期待与各界同仁一起探讨、交流，让轻量化模型赋能更多应用场景。

一、为什么要研究“多任务学习”？

多任务学习（Multi-Task Learning，MTL）是机器学习的一个子领域，其利用任务之间的共性和差异同时解决多个学习任务。与单独训练模型相比，这可以提高特定任务模型的学习效率和预测准确性。1

一般来说，多任务模型具有以下优势：

无需对底层模型进行任何改动，使用一个模型即可完成各种任务；
多任务模型具备极强的泛化能力，面对新任务无需额外标注大量数据；
大幅降低每次面对新任务时模型的额外研发成本（包括计算成本、存储成本以及维护成本）。

因此，多任务学习近期已成为工业界广泛关注的方向。

二、孟子多任务模型优势

我们收集并整理了 72 个开源数据集（不包括子集），目前在挑选出的 27 个任务上，构造了 301 个 Prompt，共计样本量约 359w，任务类型包含了情感分类、新闻分类、摘要等任务，每个任务对应了十个左右的 Prompt。我们采用这些数据集基于孟子 Mengzi-T5-base 模型训练了孟子多任务模型（Mengzi-T5-base-MT） 。

2.1 效果更好

孟子多任务模型（Mengzi-T5-base-MT）在 2022 年 8 月 22 日提交至零样本学习 ZeroCLUE 和小样本学习权威榜单 FewCLUE 榜单，均排名第一。同时，孟子多任务模型在模型的规模上轻量化优势明显（参数量仅 0.22B）。下图展示了孟子多任务模型在零样本学习权威榜单 ZeroCLUE 上与其他模型的对比：

2.2 实际场景验证

孟子多任务模型基于用户私有数据及各个领域（包括金融、医疗）的任务训练，已经在大量实际场景中得到验证。

下图展示了 Mengzi-T5-base-MT 模型在金融实体关系抽取任务的示例：

更多模型能力展示：

可以看到，在实体抽取、语义相似度、金融关系抽取、广告文案生成、医学领域意图分析、评论情感分类、评论对象抽取、新闻分类等任务上的效果，孟子多任务模型的总体效果较优。未来我们也将在多任务方向进行更加深入的探索和实践。

三、快速体验孟子多任务模型

孟子多任务模型已开源，大家可以在 Hugging Face Model Hub 下载 Mengzi-T5-base-MT 模型或在网页 API 直接试用模型：

https://huggingface.co/Langboat/mengzi-t5-base-mt

或者在 Github 上查看开源 SDK project—— Mengzi Zero-Shot：

https://github.com/Langboat/mengzi-zero-shot

Mengzi Zero-Shot 项目提供的 SDK 目前已支持八项任务（涵盖了情感分类、新闻分类、文本相似度、实体抽取、金融实体关系抽取、评论对象抽取、广告文案生成、医疗领域意图识别等），具体信息详见 Github 项目文档。

此次开源的目标是与社区伙伴们一起打造中文领域包含任务最多、prompt 最多的多任务模型。根据 ExT52 的结论，随着任务及 prompt 的数量的增加，模型的 Zero-Shot 表现会相应提高。因此，我们希望大家能够为本项目贡献更多的任务以及 prompt，以获得更好的多任务模型。模型会不定期更新并开源给大家免费使用。详情见项目 README 文档

Reference :

1https://en.wikipedia.org/wiki/Multi-task_learning

2Aribandi V, Tay Y, Schuster T, et al. Ext5: Towards extreme multi-task scaling for transfer learningJ. arXiv preprint arXiv:2111.10952, 2021.

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

NLP 服务