专栏首页arxiv.org翻译专栏芬兰语建模与深层变压器模型(CS SD)
原创

芬兰语建模与深层变压器模型(CS SD)

在LSTM被认为是主导模型体系结构之后的很长一段时间,转换器在语言建模中占据了中心舞台。在这个课题中,我们研究了BRET转换器结构和XL转换器结构在语言建模任务中的性能。BERT获得了14.5的伪复杂度评分,这是我们目前所知道的第一个此类的测量。XL模型的伪复杂度分数提高到73.58,比LSTM模型提高了27%。

原文题目:Finnish Language Modeling with Deep Transformer Models

原文:Transformers have recently taken the center stage in language modeling after LSTM's were considered the dominant model architecture for a long time. In this project, we investigate the performance of the Transformer architectures-BERT and Transformer-XL for the language modeling task. We use a sub-word model setting with the Finnish language and compare it to the previous State of the art (SOTA) LSTM model. BERT achieves a pseudo-perplexity score of 14.5, which is the first such measure achieved as far as we know. Transformer-XL improves upon the perplexity score to 73.58 which is 27\% better than the LSTM model.

原文作者:Abhilash Jain

原文地址:https://arxiv.org/abs/2003.11562

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 基于变压器模型的流式自动语音识别(CS SD)

    基于编码器-解码器的序列-序列模型已经证明了端到端自动语音识别(ASR)的最新成果。最近的研究表明,与基于递归神经网络(RNN)的系统结构相比,基于时间上下文信...

    用户6853689
  • 关于跨语种语言模型的讨论

    最近,一个预先训练的模型被证明可以改善下游问题。Lample和Conneau提出了两个新的培训目标来培训跨语言语言模型(XLM)。这种方法可以实现跨语言自然语言...

    AiTechYun
  • 循环热管的动态状态空间建模与基于模型的控制设计(CS SY)

    对于航空航天、汽车或服务器系统中电子元件的热控制,散热器通常远离热源。因此,热传导系统是有效冷却电子元件所必需的。循环热管(LHPs)就是这样的传热系统,它利用...

    用户6853689
  • 硬件数据手册说明——Ompal138+Spartan-6 开发板(下)

    本篇内容主要讲解Ompal138+Spartan-6 FPGA开发板的硬件部分,其中包含了FPGA、CPU、FLASH、接口与串口,以及连接器和开关等,希望对嵌...

    创龙Tronlong123
  • 为知识跟踪提供适当的查询、键和值计算(Computers and Society)

    知识追踪是计算机辅助教学领域中一个被广泛研究的问题,它是通过学生的学习活动对其知识进行建模的行为。递归神经网络和基于变压器的知识跟踪模型具有关注目标预测相关信息...

    用户6869393
  • 根据作曲家分类的大型MIDI (CS SD)

    音乐分类是将乐曲根据流派或作曲家分门别类贴上标签的工作。我们提出一个大型MIDI系统,使用Giant-MIDI钢琴和基于转录的乐谱数据库,根据作曲家进行音乐分类...

    木樾233
  • 借助音频特性实现运动生成(cs sd)

    声音和动作是紧密结合的,尤其是在舞蹈中。 我们已知某些音频功能会影响我们向音乐过渡的方式。 声音和运动之间的这种关系是否可以使用机器学习进行建模呢? 最初的实验...

    木樾233
  • 与熔融变压器配套(CS)

    本体和知识图自动匹配的最强烈信号之一是概念的文本描述。通常应用的方法(例如基于字符或标记的比较)相对简单,因此不能捕获文本的实际含义。随着基于转换器的语言模型的...

    用户8440711
  • 输入:通过输入和动态规划的序列建模(CS SD)

    提出了一种通过输入迭代生成输出序列的神经序列模型——输入器。输入是一个迭代生成模型,只需要与输入或输出标记的数量无关的固定数量的生成步骤。输入端可以被训练成在输...

    用户6853689
  • 对抗迁移学习以恢复标点(CS.LG)

    先前的研究表明,单词嵌入和词性(POS)标签有助于标点恢复任务。但是,仍然存在两个缺点。一个是单词嵌入是由单向语言建模目标预先训练的。因此,单词嵌入仅包含从左到...

    蔡小雪7100294
  • 切分器:语义切分的变压器(CS)

    图像分割往往是模糊的水平上的个别图像补丁,并需要上下文信息达成一致的标签。本文介绍了一种用于语义切分的变压器模型——切分器。与基于卷积的方法相比,我们的方法允许...

    用户8440711
  • AraBERT:基于变压器的阿拉伯语理解模型(CS.CL)

    与英语相比,阿拉伯语是一种形态丰富且复杂的语言,具有相对较少的资源和较少探索的语法。鉴于这些限制,事实证明,诸如情感分析(SA),命名实体识别(NER)和问答(...

    蔡小雪7100294
  • 微软的UniLM AI在摘要和语言生成领域登顶NO.1

    语言模型前训练技术可以通过让机器学习系统根据上下文来预测单词,从而“教”机器学习系统将文本表示逻辑化,这种技术已经在一系列自然语言处理目标上取得了进展。然而,像...

    AiTechYun
  • 学界 | 跟着大神回顾ACL 2018:大会亮点一览

    很高兴看到很多论文都在从方法上研究现有模型以及它们捕获的内容,而不是一直在引入更新的模型。进行这样的研究最常用的办法是自动创建一个侧重于泛化行为的某个特定方面的...

    机器之心
  • 【干货】最新深度学习课程,多伦多大学“神经网络与机器学习导论(2018年Spring)(附课件下载)

    【导读】多伦多大学计算机系助理教授Roger Grosse 开设的《神经网络与机器学习导论》课程涵盖了从机器学习基础知识到深度学习、强化学习等高阶内容,是AI从...

    WZEARW
  • 用户首次付费分析

    作者 邓培 本文为CDA数据分析师志愿者原创作品,转载需授权 ---- 导读 作者目前在一家互联网证券社交平台从事产品数据分析工作,本项目解决用户自激活 AP...

    CDA数据分析师
  • 机器学习技术的发展与结构搜索的诞生

    伴随着人工智能技术的飞速发展,语音识别、机器翻译等各项科技名词已不是传统意义上被企业家束之高阁的前景应用,更不是研究人员讳莫如深的复杂概念,它们已经伴随着大数据...

    AI科技评论
  • 【干货】适合NLP初学者的8个免费资源分享

    微软全球执行副总裁沈向洋博士曾表示“懂语言者得天下,人工智能对人类影响最为深刻的就是自然语言方面。”现在很多研究人员都在进入自然语言领域,希望可以解决“让机器理...

    Python数据科学
  • 金融/语音/音频处理学术速递[8.19]

    【1】 Tilted Platforms: Rental Housing Technology and the Rise of Urban Big Data ...

    公众号-arXiv每日学术速递

扫码关注腾讯云开发者

领取腾讯云代金券