机器之心发布
机器之心编辑部
周明团队提出孟子预训练模型,刷新 CLUE 榜单。
近日,澜舟科技 - 创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型—孟子轻量型模型,超越腾讯、搜狗等公司,在中文语言理解评测 CLUE 榜单上登顶第一,刷新业界记录。
作为中文语言理解领域最具权威性的测评基准之一,CLUE 涵盖文本相似度、分类、自然语言推理、阅读理解等共 10 项语义分析和理解类子任务。近段时间,来自腾讯、搜狗、华为、阿里达摩院的团队纷纷以大模型刷新此榜单。
据了解,澜舟科技是创新工场孵化的一家认知智能公司,公司创始人周明博士是创新工场首席科学家,他是世界顶级的 AI 科学家,自然语言处理领域的代表性人物。如下为 CLUE总榜、分类榜和阅读理解帮最新成绩:
孟子预训练模型
孟子预训练模型是基于澜舟团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,仅包含十亿参数量,基于数百 G 级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
「小模型,大智慧」。基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现出色。相对已有的中文语言模型,孟子模型实现了多项突破性进展:
轻量化模型研究
在轻量化模型算法研究方面,基于自研的基于语言学知识、知识图谱和领域数据增强等技术,从模型架构(包括基础层 Embedding 表示和交互层 Attention 机制)到预训练策略进行了全方位改进。具体而言,
图 2:孟子轻量化模型算法策略。
基于以上算法策略,实现从语料中高效学习涵盖词级、句子级和语篇级知识,大幅提升语言模型提炼语言结构和语义信息能力,以及良好的领域迁移能力,适应广泛的产品应用场景。
Finetune 的进展
如何将预训练模型用于各项任务同样是一项重要挑战,澜舟团队从数据增强、知识蒸馏、迁移训练、训练优化等方面展开了一些探索,进一步提升语言模型的性能:
垂直化领域适应
基于领域适应技术,孟子模型已深度垂直化赋能相应行业。典型的例子为适用于金融领域的孟子模型,领域适应策略主要包含两大方面:
轻量化孟子模型的应用
孟子模型已在多个领域成功落地实践,衍生出多项行业领先的产品,涵盖文本生成、行业搜索、机器翻译等诸多领域。
ACL 2021 论文分享会
为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心计划于 7 月 31 日组织「ACL 2021 论文分享会」。
ACL 论文分享会将设置 Keynote、 论文分享 、圆桌论坛、 Poster与企业展台环节 ,国内 NLP 顶级大牛周明将作为圆桌论坛嘉宾参与此次活动。
欢迎论文作者、AI 社区从业者们点击「阅读原文」报名参与。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com