腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

mathor

专栏作者

447

文章

591686

阅读量

50

订阅数

长尾分布的多标签文本分类平衡方法

长尾分布各位肯定并不陌生，指的是少数几个类别却有大量样本，而大部分类别都只有少量样本的情况，如下图所示

2021-11-22

3.1K0

从零训练一个超越预训练的NLP模型

编程算法 NLP 服务

本文基于Arxiv上的一篇论文NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework，清华的几位研究者提出一种任务驱动的语言模型TLM（Task-driven Language Modeling）。不需要大规模的预训练，从零训练一个大模型也能取得SOTA的效果，源码在yaoxingcheng/TLM

2021-11-17

1.2K0

简单到令人沮丧的替代MLM的预训练任务？

NLP 服务编程算法

EMNLP2021有一篇论文标题名为Frustratingly Simple Pretraining Alternatives to Masked Language Modeling，翻译过来就是「简单到令人沮丧的替代MLM的预训练任务」。但我给它加了个问号，因为我觉得首先作者提出的这些方法，对于模型来说太难了，即便是让我去做他所提出的这些预训练任务，我都不一定做得出来。其次是从结果来看效果似乎一般般

2021-11-12

1.1K0

对抗验证：划分一个跟测试集更接近的验证集

腾讯云测试服务 spring NLP 服务

不论是打比赛、做实验还是搞工程，我们经常会遇到训练集与测试集分布不一致的情况。一般来说，我们会从训练集中划分出一个验证集，通过这个验证集来调整一些超参数，并保存在验证集上效果最好的模型。然而，如果验证集本身和测试集差别比较大，那么在验证集上表现很好的模型不一定在测试集上表现同样好，因此如何让划分出来的验证集跟测试集的分布差异更小，是一个值得研究的课题

2021-07-07

2.1K0

积分梯度：一种新颖的神经网络可视化方法

神经网络 NLP 服务

本文介绍一种神经网络的可视化方法：积分梯度（Integrated Gradients），它首先在论文《Gradients of Counterfactuals》中提出，后来《Axiomatic Attribution for Deep Networks》再次介绍了它，两篇论文作者都是一样的，内容也大体上相同，后一篇相对来说更易懂一些，如果要读原论文的话，建议大家优先读后一篇。当然，它已经是2016～2017年间的工作了，“新颖”说的是它思路上的创新有趣，而不是指最近发表

2021-05-20

1.6K0

NLP 中的对抗训练（附 PyTorch 实现）

要认识对抗训练，首先要了解 "对抗样本"，它首先出现在论文 Intriguing properties of neural networks 之中。简单来说，它是指对于人类来说 "看起来" 几乎一样，但对于模型来说预测结果却完全不一样的样本，比如下面的经典例子（一只熊猫加了点扰动就被识别成了长臂猿）

2021-05-12

2.5K0

BPE算法详解

NLP 服务编程算法 es

在NLP模型中，输入通常是一个句子，例如"I went to New York last week."，一句话中包含很多单词（token）。传统的做法是将这些单词以空格进行分隔，例如['i', 'went', 'to', 'New', 'York', 'last', 'week']。然而这种做法存在很多问题，例如模型无法通过old, older, oldest之间的关系学到smart, smarter, smartest之间的关系。如果我们能使用将一个token分成多个subtokens，上面的问题就能很好的解决。本文将详述目前比较常用的subtokens算法——BPE（Byte-Pair Encoding）

2021-04-02

2.5K0

BERT and it's family

预训练语言模型的缩写大多是芝麻街的人物。这显然是起名艺术大师们的有意为之。他们甚至都可以抛弃用首字母缩写的原则去硬凑出芝麻街人名

2020-11-09

1.1K0

三种Cross-lingual模型 (XLM, XLM-R, mBART)详解

本文将详述三种Cross-lingual模型，按照其在Arxiv上发表论文的时间，分别是XLM(2019/1/22)、XLM-R(2019/11/5)、mBART(2020/1/22)，有意思的是这三篇文章均出自FaceBook，他们是不是对跨语言模型有什么执念？

2020-11-04

8.1K0

2018 年，谷歌发布了基于双向 Transformer 的大规模预训练语言模型BERT，刷新了 11 项 NLP 任务的最优性能记录，为 NLP 领域带来了极大的惊喜。很快，BERT 就在圈内普及开来，也陆续出现了很多与它相关的新工作

2020-08-11

1.1K0

BERT详解（附带ELMo、GPT介绍）

日志服务 NLP 服务

BERT全称为Bidirectional Encoder Representation from Transformer，是Google以无监督的方式利用大量无标注文本「炼成」的语言模型，其架构为Transformer中的Encoder（BERT=Encoder of Transformer）

2020-07-22

7.3K0

Beyond Accuracy:Behavioral Testing of NLP Models with Checklist 论文阅读

腾讯云测试服务黑盒测试 NLP 服务功能测试编程算法

本文主要介绍以及翻译一篇 ACL2020 Best Paper Beyond Accuracy:Behavioral Testing of NLP Models with Checklist

2020-07-14

1.2K0

NNLM的PyTorch实现

pytorch 编程算法 java 批量计算 NLP 服务

本文主要首先介绍一篇年代久远但意义重大的论文A Neural Probabilistic Language Model(2003)，然后给出PyTorch实现

2020-06-11

1.3K0

机器学习深度学习人工智能 NLP 服务

长时间的短期记忆网络（Long Short-Term Memory Networks），很多地方翻译为长短期记忆网络，给人一种歧义，以为是网络一会儿能记很长的内容，一会儿能记很短的内容，但其实正确的翻译应该是长时间的短期记忆网络。它的本质就是能够记住很长时期内的信息

2020-02-14

8240

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态