近日,澜舟科技-创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型—孟子轻量型模型,超越腾讯、搜狗等公司,在中文语言理解评测CLUE榜单上登顶第一,刷新业界记录。作为中文语言理解领域最具权威性的测评基准之一,CLUE涵盖文本相似度、分类、自然语言推理、阅读理解等共10项语义分析和理解类子任务。该榜单竞争激烈,吸引了腾讯、搜狗、华为、阿里达摩院等竞争对手的激烈角逐。
澜舟科技是创新工场孵化的一家认知智能公司。公司创始人周明博士是创新工场首席科学家。他是世界顶级的AI科学家,自然语言处理领域的代表性人物。澜舟公司针对商业场景的数字化转型,基于大数据、知识图谱和行业模型,提供新一代的信息检索、知识推理和商业洞见技术和相关产品。
以下为孟子轻量型模型 在CLUE总榜、分类榜和阅读理解榜单上取得的最新成绩:
图一:CLUE总榜、分类榜和阅读理解榜单上的最新成绩
1
孟子预训练模型
孟子预训练模型是基于澜舟团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于Transformer架构,仅包含十亿参数量,基于数百G级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
“小模型,大智慧”。基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现出色。相对已有的中文语言模型,孟子模型实现了多项突破性进展:
2
轻量化模型研究
在轻量化模型算法研究方面,基于自研的基于语言学知识、知识图谱和领域数据增强等技术,从模型架构(包括基础层Embedding表示和交互层Attention机制)到预训练策略进行了全方位改进。具体而言,
图2:孟子轻量化模型算法策略
基于以上算法策略,实现从语料中高效学习涵盖词级、句子级和语篇级知识,大幅提升语言模型提炼语言结构和语义信息能力,以及良好的领域迁移能力,适应广泛的产品应用场景。
Finetune的进展
如何将预训练模型用于各项任务同样是一项重要挑战,澜舟团队从数据增强、知识蒸馏、迁移训练、训练优化等方面展开了一些探索,进一步提升语言模型的性能:
垂直化领域适应
基于领域适应技术,孟子模型已深度垂直化赋能相应行业。典型的例子为适用于金融领域的孟子模型,领域适应策略主要包含两大方面:
3
轻量化孟子模型的应用及展望
应用
孟子模型已在多个领域成功落地实践,衍生出多项行业领先的产品,涵盖文本生成、行业搜索、机器翻译等诸多领域。
未来展望
轻量级模型凭借着模型参数较少、快速推断的特点,易于线上部署和推广到移动设备中,具有广泛的研究和应用前景。
创新工场董事长兼CEO李开复认为,“如果说CNN造就了今天计算机视觉领域的突破和众多应用,‘预训练大模型+微调’也将带来自然语言的百花齐放的发展,用数据智能驱动各类业务的升级。”