前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文阅读-20190924

论文阅读-20190924

作者头像
故事尾音
发布2019-12-18 17:20:53
9200
发布2019-12-18 17:20:53
举报

论文1

《SANVis: Visual Analytics for Understanding Self-Attention Networks》

简介

这一篇文章是关于Self-Attention可视化的,可视化的网络有Transformer和BERT。里面有一幅Transformer的图很好,贴过来。

论文2

《BERT Meets Chinese Word Segmentation》

简介

这篇论文介绍BERT用于中文分词任务的。里面提到一点有趣的地方在于,BERT后面接Softmax和CRF层的最终效果差不多,但是SoftMax更快。 模型结构

实验结果 注意这个是只使用BERT的第一层做特征提取的效果,这里CRF要比SoftMax好。

这个是不同层做特征提取的效果,可以看到微调12层的时候SoftMax和CRF效果差不多。

论文结果

  • BERT可以稍微提高CWS任务的性能。就Softmax分类器来说,MSR数据集和PKU数据集F1分数分别有+0.3和+0.4提高。
  • 充分训练的时候,CRF和Softmax达到相同的性能。但是由于Softmax预测时间更短,因此更受欢迎。
  • 随着模型尺寸的增加,BERT的性能逐渐提高。

论文3

《Enriching BERT with Knowledge Graph Embeddings for Document Classification》

简介

这篇文章是一个比赛的方法,这个比赛是进行文档分类,但是还有一些其他的数据(作者,ISBN等等),因此要做特征的融合,作者提出的融合方法很简单,如下:

论文4

《Subword ELMo》

简介

这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。

稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b):

流程图

对比ResNet

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文1
    • 简介
    • 论文2
      • 简介
        • 论文结果
        • 论文3
          • 简介
          • 论文4
            • 简介
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档