专栏首页数据派THUGoogle的预训练模型又霸榜了,这次叫做T5(附榜单)

Google的预训练模型又霸榜了,这次叫做T5(附榜单)

来源:科学空间

本文约1000字,建议阅读5分钟

本文将介绍Google最近新出的预训练模型。

Google又出大招了,这次叫做T5:

T5 serves primarily as code for reproducing the experiments in Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. The bulk of the code in this repository is used for loading, preprocessing, mixing, and evaluating datasets. It also provides a way to fine-tune the pre-trained models released alongside the publication.

T5 can be used as a library for future model development by providing useful modules for training and fine-tuning (potentially huge) models on mixtures of text-to-text tasks.

这次的结果基本上比之前最优的RoBERTa都要高出4%,其中BoolQ那个已经超过了人类表现了:

榜单在此:https://super.gluebenchmark.com/leaderboard

这次的模型参数量,最多达到了110亿!!!!!!!

Github上也给出了简单的使用教程,当然这么大的参数,估计也只能用tpu了:

https://github.com/google-research/text-to-text-transfer-transformer

此处之外,Github还提到另外一个贡献,就是一个名为tensorflow-datasets的库,里边可以方便地调用很多已经转好为tf.data格式的数据,无缝对接tensorflow。

详情请看:https://www.tensorflow.org/datasets

对了,还有论文:https://arxiv.org/abs/1910.10683

大名是《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts every language problem into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled datasets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new “Colossal Clean Crawled Corpus”, we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our dataset, pre-trained models, and code.

似乎叫做《Exploring the Limits of TPU》适合一些?

大致扫了一下论文,应该是用了类似UNILM的Seq2Seq预训练方式吧,把各种有标签的、无标签的数据都扔了进去。

现在就简单推送一下,细读之后再分享感想,现在就蹭一下热度。

编辑:王菁

校对:王欣

本文分享自微信公众号 - 数据派THU(DatapiTHU)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【独家】关于深度学习,Yann LeCun给大学生的十四条建议

    作者:Yann LeCun 翻译:白静 校对:丁楠雅 本文长度为800字,建议阅读2分钟 本文是人工智能大师Yann LeCun在问答平台Quora上对问题“W...

    数据派THU
  • 一起刷题吧 | 100+Python编程题带你快速上手(附答案)

    春节马上就要到了,怎么能让自己在假期里不掉队?今天,给大家准备一个项目: 100+ 编程练习,这些题如果能坚持每天至少完成一道,一定可以帮大家轻松 get Py...

    数据派THU
  • 从零开始用Python实现k近邻算法(附代码、数据集)

    数据派THU
  • 微服务架构(Microservices)究竟是什么?

    (摘自Introduction to Monolithic Architecture and MicroServices Architecture)

    ayqy贾杰
  • 引领数字社会经济提高效率—通证经济学入门 (CS CY)

    互联网的下一个进化步骤已经到来了是通过使用加密安全和数字稀缺的代币来实现。加密代币代表了加密运动的一种新现象,它能够通过编程规则和激励机制来引导参与者的行为,使...

    Antonia
  • 通过音乐驱动的机器人情感韵律和手势,建立人机信任(Human-Computer Interaction)

    随着人机协作机会的不断扩大,信任对于机器人的充分参与和利用变得越来越重要。建立在情感关系和人际关系纽带上的情感信任尤其重要,因为它对错误更有弹性,并增加了合作的...

    李欣颖6837176
  • 原创译文 | Google发布AI新技术,识别儿童性虐待图片

    本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:“转自:灯塔大数据;微信:DTbigdata”

    灯塔大数据
  • HTML的书写规范

    The following document outlines a reasonable style guide for HTML development. T...

    javascript.shop
  • 2018 AI、机器学习、深度学习与 Tensorflow 相关优秀书籍、课程、示例链接集锦

    人工智能、深度学习与 Tensorflow 相关书籍、课程、示例列表是笔者 Awesome Links 系列的一部分;对于其他的资料集锦、模型、开源工具与框架请...

    王下邀月熊
  • Satpy基础系列教程(3)-Satpy总览

    Satpy is designed to provide easy access to common operations for processing met...

    zhangqibot

扫码关注云+社区

领取腾讯云代金券