首页
学习
活动
专区
工具
TVP
发布

AI研习社

专栏作者
1755
文章
2104235
阅读量
197
订阅数
GPT-2没什么神奇的,PyTorch 就可以复现代码
我读过的最精彩、解释最清楚的文章之一是「The Annotated Transformer」https://nlp.seas.harvard.edu/2018/04/03/attention.html 。它引起了前所未有的关注,一个简单的想法就是用一个文件注释你所需要的代码。
AI研习社
2020-02-27
2.9K0
手把手教你用 Transformers 和 Tokenizers 从头训练新语言模型
在过去的几周里,我们对 transformers 和 tokenizers 库进行了一些改进,目的是让从头开始训练新的语言模型变得更加容易。
AI研习社
2020-02-25
5K0
2020 年了,深度学习接下来到底该怎么走?
在过去的一年,深度学习技术在各个领域一如既往地取得了不少进展。然而当前深度学习技术(本文中称为深度学习1.0)仍然存在着一些明显的局限,例如在解决有意识任务方面的不足。那么针对这些局限性,在未来的一年,有哪些可能的解决方案?深度学习又会在哪些方面带来有希望的突破?
AI研习社
2020-02-21
4700
2020年机器学习的评价标准不仅仅是精度,PyTorch创始人和Google大佬等人如是说
从左至右:Google AI 主管 Jeff Dean,加州大学伯克利分校教授 Celeste Kidd,Pythorch 主管 Soumith Chintala,Nvidia 机器学习研究主管 Anima Anandkumar,以及 IBM 研究总监 Dario Gil
AI研习社
2020-02-12
5430
2020 年数据科学就业市场必备的五项技能
数据科学是一个竞争激烈的领域,人们正在迅速学习越来越多的技能和经验。这导致了机器学习工程师的从业要求的直线上升,因此 2020 年我的建议是,所有的数据科学家也需要成为开发人员。
AI研习社
2020-01-02
3770
NeurIPS 2019 神经网络压缩与加速竞赛双项冠军技术解读
日前,神经信息处理系统大会(NeurIPS2019)于12月8日至14日在加拿大温哥华举行,中国科学院自动化研究所及其南京人工智能芯片创新研究院联合团队在本次大会的神经网络压缩与加速竞赛(MicroNet Challenge)中获得双料冠军!
AI研习社
2019-12-24
1.3K0
T5 模型:NLP Text-to-Text 预训练模型超大规模探索
本文来自微信公众号 @安迪的写作间 ,AI开发者获授权转载,如需转载,请联系原作者。
AI研习社
2019-11-06
1.6K0
加速BERT模型:从架构优化、模型压缩到模型蒸馏
原文链接:https://blog.inten.to/speeding-up-bert-5528e18bb4ea
AI研习社
2019-11-01
3K0
资料 | 统计自然语言处理基础(中文版)
近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所以理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。
AI研习社
2019-11-01
1.5K0
NLP 最佳实践存储库
此存储库包含构建 NLP 系统的示例和最佳实践,在 jupyter notebook 和实用程序函数中提供。知识库的重点是最先进的方法和常见的场景,这些方法和场景在研究文本和语言问题的研究人员和实践者中很流行。
AI研习社
2019-10-24
7190
解密 BERT
想象一下这样一个在大量未标注数据集中训练的模型,你仅仅只需要做一点的微调,就可以在11个不同的NLP任务上取得 SOTA结果。没错,BERT就是这样,它彻底改变了我们设计NLP模型的方式。
AI研习社
2019-10-24
3.4K0
谷歌发布含 7 种语言的全新数据集:有效提升 BERT 等多语言模型任务精度高达 3 倍!
近日,谷歌发布了包含 7 种语言释义对的全新数据集,即:PAWS 与 PAWS-X。BERT 通过该数据集的训练,在释义对问题上的精度实现了约为 3 倍的提升;其它先进的模型也能够利用该数据集将精度提高到 85-90%。谷歌希望这些数据集将有助于推动多语言模型的进一步发展,并发布了相关文章介绍了该数据集,我们将其整理编译如下。
AI研习社
2019-10-10
9340
XLNet预训练模型,看这篇就够了!(附代码实现)
XLNet 是一个类似 BERT 的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型,最终,XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果(state-of-the-art),包括机器问答、自然语言推断、情感分析和文档排序。
AI研习社
2019-10-08
2.9K0
黑客视角:避免神经网络训练失败,需要注意什么?
确保网络正常运行的关键因素之一是网络的配置。正如机器学习大师 Jason Brownle 所说,「深度学习神经网络已经变得易于定义和拟合,但仍然难以配置。」
AI研习社
2019-10-08
8120
干货 | ​NLP数据处理工具——torchtext
本文为 AI 研习社社区用户 @Dendi 独家投稿内容,欢迎扫描底部社区名片访问 @Dendi 的主页,查看更多内容。
AI研习社
2019-09-25
1.9K0
谷歌开放全新自然语言数据集
近日,谷歌宣布开放两个新的自然语言对话数据集,分别是 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1。这两个数据集旨在对更接近人类对话的数据进行更详细的标注,并提供到自然语言处理相关研究者更符合生活实际的数据内容。谷歌发布了相关内容详细介绍该开放数据集,我们将其进行了如下整理及编译。
AI研习社
2019-09-12
6790
Kaggle Grandmaster 的 NLP 方法
AI 开发者按,相信很多数据科学从业者都会去参加 kaggle 竞赛,提高自己的能力。在 Kaggle Competitions 排行榜中,有一个头衔是众多用户都十分向往的,那就是「Kaggle Grandmaster」,指的是排名 0.1‰ 的顶级高手。数据科学新手 Dean Sublett 和数据科学家,Kaggle Grandmaster Abhishek 进行了交流,并写了一篇关于他的 kaggle Kernel 的文章,AI 开发者编译整理。
AI研习社
2019-09-09
5270
手把手教你如何选择、斩下NLP算法岗offer!
这篇文章不是面经集合,也不是装X和贩卖焦虑的晒offer贴,也不是堆砌可能问到的知识点,而是希望给还在迷茫的小伙伴提供一些系统的指导和建议。当然,这些建议可能不适合每个人,因此希望大家从这篇文章里汲取到适合自己的养分,千万不要邯郸学步哦m(— —)m
AI研习社
2019-09-05
1.7K0
机器学习面试中常考的知识点和代码实现(一)
本文是机器学习面试中常考的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识;既然是以面试为主要目的,亦不可以篇概全,请谅解,有问题可提出。
AI研习社
2019-08-26
6890
五分钟搭建BERT服务,实现1000+QPS
日前,香侬科技开源 service-streamer 线上模型部署中间件,用于将服务请求排队batch化,大幅度提高GPU利用率。AI 开发者经授权转载,如需转载请联系香侬科技。
AI研习社
2019-08-15
3.2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档