首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    从头开始了解Transformer

    编者按:自2017年提出以来,Transformer在众多自然语言处理问题中取得了非常好的效果。它不但训练速度更快,而且更适合建模长距离依赖关系,因此大有取代循环或卷积神经网络,一统自然语言处理的深度模型江湖之势。我们(赛尔公众号)曾于去年底翻译了哈佛大学Alexander Rush教授撰写的《Transformer注解及PyTorch实现》一文,并获得了广泛关注。近期,来自荷兰阿姆斯特丹大学的Peter Bloem博士发表博文,从零基础开始,深入浅出的介绍了Transformer模型,并配以PyTorch的代码实现。我非常喜欢其中对Self-attention(Transformer的核心组件)工作基本原理进行解释的例子。此外,该文还介绍了最新的Transformer-XL、Sparse Transformer等模型,以及基于Transformer的BERT和GPT-2等预训练模型。我们将其翻译为中文,希望能帮助各位对Transformer感兴趣,并想了解其最新进展的读者。

    03

    效果远超FM,CF最新利器HFM!

    这是一篇关于特征交叉方式处理的论文,实践的价值很大,二阶的特征交叉能为我们模型带来非常大的帮助,因为二阶的特征交叉可以很好地捕捉特征之间的两两交叉关系,但在实践生产中我们做的最多的就是直接做向量间的内积,最典型的就是工业界常用的双塔模型,用户侧作为一端,商品侧作为另一端,然后两端的特征进行内积,最后直接相加或者吧两两点积的结果输入到下一层,不过在非常多的工作中,我们也发现两两向量的内积会丢失非常多的信息,我们也发现在很多情况下,我们对两个向量做外积,然后把外积展开输入到下一层的效果要比内积的效果更好,但也会带来一个问题,就是计算量和存储量会爆炸,因而工业界更加倾向于前者,那么有没有一种其他的方法,使我们能在可以接受的时间复杂度,然后又可以拿到相较于内积更好的结果呢?这就是本文的核心!!!

    02

    聊聊Transform模型

    循环神经网络和长短期记忆网络已经广泛应用于时序任务,比如文本预测、机器翻译、文章生成等。然而,它们面临的一大问题就是如何记录长期依赖。 为了解决这个问题,一个名为Transformer的新架构应运而生。从那以后,Transformer被应用到多个自然语言处理方向,到目前为止还未有新的架构能够将其替代。可以说,它的出现是自然语言处理领域的突破,并为新的革命性架构(BERT、GPT-3、T5等)打下了理论基础。 Transformer由编码器和解码器两部分组成。首先,向编码器输入一句话(原句),让其学习这句话的特征,再将特征作为输入传输给解码器。最后,此特征会通过解码器生成输出句(目标句)。 假设我们需要将一个句子从英文翻译为法文。如图所示,首先,我们需要将这个英文句子(原句)输进编码器。编码器将提取英文句子的特征并提供给解码器。最后,解码器通过特征完成法文句子(目标句)的翻译。

    02
    领券