源 / 机器之心
词语和句子嵌入已经成为任何基于深度学习的自然语言处理系统的必备组成部分。它们将词语和句子编码成稠密的定长向量,从而大大地提升神经网络处理文本数据的能力。近日,Separius 在 GitHub 上列举了一系列关于 NLP 预训练模型的近期论文和文章,力求全面地概述 NLP 各个方面的最新研究成果,包括词嵌入、池化方法、编码器、OOV 处理等。
GitHub 地址:https://github.com/Separius/awesome-sentence-embedding
通用框架
几乎所有句子嵌入的工作原理都是这样的:给出某种词嵌入和可选编码器(例如 LSTM),句子嵌入获取语境词嵌入(contextualized word embedding)并定义某种池化(比如简单的 last pooling),然后基于此选择直接使用池化方法执行监督分类任务(如 infersent),或者生成目标序列(如 skip-thought)。这样通常我们就有了很多你从未听说过的句子嵌入,你可以对任意词嵌入做平均池化,这就是句子嵌入!
词嵌入
这部分 Separius 介绍了 19 篇相关论文,包括 GloVe、word2vec、fastText 等预训练模型:
OOV 处理
语境词嵌入
这部分介绍了关于语境词嵌入的 5 篇论文,包括近期大热的 BERT。
池化方法
编码器
这部分介绍了 25 篇论文,包括 Quick-Thought、InferSent、SkipThought 等预训练模型。
评估
这部分主要介绍词嵌入、句子嵌入的评估和基准:
向量图
此外,Separius 还介绍了一些相关的文章和未发布代码或预训练模型的论文。
本文分享自 机器学习算法与Python学习 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!