首页
学习
活动
专区
工具
TVP
发布

mathor

专栏成员
447
文章
621177
阅读量
50
订阅数
我的秋招经历
首先介绍一下我的背景,我本科就读于一所双非软件工程专业,后考研到了末流211的计算机科学与技术专业
mathor
2023-01-30
4.6K1
$\mathcal{Y}$-Tuning: 通过对标签表征进行微调的深度学习新范式
ACL2022有一篇名为《\mathcal{Y}-Tuning: An Efficient Tuning Paradigm for Large-Scale Pre-Trained Models via Label Representation Learning》的投稿,从标题上就吸引了我的注意,不同于Fine-Tuning、Adapter-Tuning、Prompt-Tuning,这篇文章的创新之处在于,不调整输入文本特征与大规模预训练模型的参数,仅通过学习标签的特征,以往很少见到论文去学习标签的特征。虽然最终效果可能仍无法与微调相比,但它在节省计算成本方面有很大的优势,并有可能通过后续研究进一步提高性能
mathor
2021-12-14
7100
训练一个专门捣乱的模型
三位韩国人在EMNLP 2021 Findings上发表了一篇论文,名为Devil’s Advocate: Novel Boosting Ensemble Method from Psychological Findings for Text Classification,其中Devil's Advocate有一部同名电影,翻译过来叫「魔鬼代言人」,他们主要挑战的是传统模型融合的方法,例如硬投票(Hard-Voting)、软投票(Soft Voting)、Bagging等。源码在HwiyeolJo/DevilsAdvocate
mathor
2021-11-19
5720
跨语言对比学习
猿辅导在EMNLP2021上的一篇论文Aligning Cross-lingual Sentence Representations with Dual Momentum Contrast提出基于双Momentum网络的对比学习方法。对比学习最近非常火,尤其是以SimCES为首所提出的利用Dropout作为正样本的无监督学习方法。猿辅导的这篇论文和SimCES却不一样,它主要是从网络整体架构入手,基于Momentum网络提出了一种有监督的跨语言句子相似度计算方法
mathor
2021-11-17
5850
从零训练一个超越预训练的NLP模型
本文基于Arxiv上的一篇论文NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework,清华的几位研究者提出一种任务驱动的语言模型TLM(Task-driven Language Modeling)。不需要大规模的预训练,从零训练一个大模型也能取得SOTA的效果,源码在yaoxingcheng/TLM
mathor
2021-11-17
1.3K0
简单到令人沮丧的替代MLM的预训练任务?
EMNLP2021有一篇论文标题名为Frustratingly Simple Pretraining Alternatives to Masked Language Modeling,翻译过来就是「简单到令人沮丧的替代MLM的预训练任务」。但我给它加了个问号,因为我觉得首先作者提出的这些方法,对于模型来说太难了,即便是让我去做他所提出的这些预训练任务,我都不一定做得出来。其次是从结果来看效果似乎一般般
mathor
2021-11-12
1.1K0
Child Tuning: 反向传播版的Dropout
这篇文章主要是对EMNLP2021上的论文Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning进行讲解。论文标题有些抽象,但是用作者的话来说,这篇论文的思想可以归结为两个词:Child Tuning
mathor
2021-11-10
1.3K0
概率图模型详解
概率图模型(Probabilistic Graphical Model)就是一类用图来表达随机变量之间关系的概率模型:
mathor
2021-04-02
1.5K0
矩阵分析(十三)矩阵分解
设A\in \mathbb{C}_r^{m\times n},则存在B\in \mathbb{C}_r^{m\times r}, C\in \mathbb{C}_r^{r\times n},满足
mathor
2021-04-02
1.6K0
BPE算法详解
在NLP模型中,输入通常是一个句子,例如"I went to New York last week.",一句话中包含很多单词(token)。传统的做法是将这些单词以空格进行分隔,例如['i', 'went', 'to', 'New', 'York', 'last', 'week']。然而这种做法存在很多问题,例如模型无法通过old, older, oldest之间的关系学到smart, smarter, smartest之间的关系。如果我们能使用将一个token分成多个subtokens,上面的问题就能很好的解决。本文将详述目前比较常用的subtokens算法——BPE(Byte-Pair Encoding)
mathor
2021-04-02
3.1K0
矩阵分析笔记(六)矩阵等价与线性映射的最简表示
矩阵A\cong B的充分必要条件是存在m阶可逆矩阵P及n阶可逆矩阵Q,使PAQ=B
mathor
2020-10-15
1.6K0
矩阵分析笔记(五)线性映射
设V_1,V_2是数域\mathbb{F}上两个线性空间,映射\mathscr{A}:V_1→V_2,如果它保持加法和数乘法:
mathor
2020-09-30
1.8K0
Human Language Processing——Alignment Train
在算所有的候选对齐预测的总和之前,我们先看看一个候选对齐预测是怎么计算的。HMM,RNN-T和CTC的计算方式都是一模一样的。我们往后只用 RNN-T 来当作例子。首先我们找出一条候选对齐,比如h = ∅c∅∅a∅t∅∅。$P(h|X)$就等于每个位置的发射概率和转移概率的连乘
mathor
2020-08-05
5420
linux编译运行c++程序
以一个简单的算法题为例,How do you count the occurrence of a given character in a string?要求保存程序名为count-character-in-string.cc,运行方式为 ./count-character-in-string your-string
mathor
2020-07-27
9.5K0
BERT的PyTorch实现
本文主要介绍一下如何使用 PyTorch 复现BERT。请先花上 10 分钟阅读我的这篇文章 BERT详解(附带ELMo、GPT介绍),再来看本文,方能达到醍醐灌顶,事半功倍的效果
mathor
2020-07-27
8880
Beyond Accuracy:Behavioral Testing of NLP Models with Checklist 论文阅读
本文主要介绍以及翻译一篇 ACL2020 Best Paper Beyond Accuracy:Behavioral Testing of NLP Models with Checklist
mathor
2020-07-14
1.2K0
fastText细节及实践
fastText模型是类似CBOW的三层结构,关于这个结构的介绍,很多博客都讲了,这里我不多赘述,我主要叙述一下其中的部分细节
mathor
2020-06-18
1.2K1
NNLM的PyTorch实现
本文主要首先介绍一篇年代久远但意义重大的论文A Neural Probabilistic Language Model(2003),然后给出PyTorch实现
mathor
2020-06-11
1.4K0
Seq2Seq与注意力机制
在基于词语的语言模型中,我们使用了循环神经网络。它的输入时一段不定长的序列,输入却是定长的,例如输入:They are,输出可能是watching或者sleeping。然而,很多问题的输出是不定长的序列。以机器翻译为例,输入是一段英文,输出是一段法语,输入和输出皆不定长,例如
mathor
2020-04-10
6110
模型融合
一般来说,通过融合多个不同模型的结果,可以提升最终的成绩,所以这以方法在各种数据竞赛中应用非常广泛。模型融合又可以从模型结果、模型自身、样本集等不同的角度进行融合。通过这篇文章,希望能让大家真正理解各种模型融合的方式及原理
mathor
2020-04-08
1.5K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档