前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【ACL 2021】四篇好文简读-专题1

【ACL 2021】四篇好文简读-专题1

作者头像
智能生信
发布2021-10-08 15:51:51
8570
发布2021-10-08 15:51:51
举报
文章被收录于专栏:智能生信智能生信智能生信

论文题目:

Self-Alignment Pretraining for Biomedical Entity Representations

论文摘要:

尽管通过掩蔽语言模型的自监督学习取得了广泛的成功, 直接从文本学习表示,以准确捕获生物医学领域中复杂而精细的语义关系,仍然是一个挑战。解决这个问题对于任务是至关重要的,例如实体链接,复杂的关系知识是关键。本文提出了SAPBERT,一个基于BERT的预训练方案。它利用UMLS的度量学习的目标函数将生物医学实体的表示空间自对齐,UMLS是一个生物医学本体集合 ,包含>4M 概念。在六个医疗实体连接基准数据集上的实验结果表明,SAPBERT优于许多领域特定的基于bert的变体,如 BIOBERT, BLUEBERT和PUBMEDBERT,实现了最先进的(SOTA)性能。

论文链接:

https://static.aminer.cn/storage/pdf/arxiv/20/2010/2010.11784.pdf

代码链接:

https://huggingface.co/cambridgeltl/SapBERT-from-PubMedBERT-fulltext

论文题目:

Measuring Biases of Word Embeddings: What Similarity Measures and Descriptive Statistics to Use?

论文摘要:

词嵌入在自然语言处理(NLP)中得到了广泛的应用。然而,事实证明,这些嵌入反应了存在于用于训练它们的数据中的人类偏见。大多数引入的偏倚指标都是基于余弦相似度度量的基于平均的指标。在本研究中考察了不同的相似度测量以及其他描述技术的影响,而不是平均测量语境和非语境词汇嵌入的偏差。本文表明,在词嵌入中揭示的偏差程度取决于用来衡量偏差的描述性统计和相似性度量。结果表明,在10类词汇嵌入关联测试中,马氏距离偏差最小,欧几里得距离偏差最大。此外,语境模型比非语境模型显示较少严重的偏见

论文链接:

https://www.aminer.cn/pub/60af76ba9e795e6b8e55c76b/measuring-biases-of-word-embeddings-what-similarity-measures-and-descriptive-statistics-to?conf=acl2021

论文题目:

AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER

论文摘要:

命名实体识别(Named Entity Recognition, NER)是指:对文本中带有特定语义信息的实体进行识别,其广泛应用于知识图谱、推荐系统等领域中。目前,基于深度神经网络的 NER 模型已经在拥有大规模高质量标注语料的前提下取得了不错的效果。但是在实际应用中,标注数据尤其是高质量的标注数据,往往因其高代价而仅集中在少数几种语言中。因此,跨语言命名实体识别(Cross-Lingual Named Entity Recognition)就成为了 NER 领域近几年的研究热点。人们希望通过跨语言迁移学习,将知识从具有大量标注语料的源语言,迁移到没有标注语料的目标语言,从而解决目标语言上的 NER 问题。

论文链接:

https://arxiv.org/abs/2106.02300v1

Github链接:

https://github.com/microsoft/vert-papers/tree/master/papers/AdvPicker

论文题目:

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling

论文摘要:

文档是 NLP 领域常见的文本类型,但其长度通常较长,如果用 Transformer 去建模长文档,计算开销会很大。所以,通常的做法是对长文档进行截断,但是这样会造成文档输入信息不全,影响最终的文档建模效果。作者注意到,长文档通常由多个句子组成,不同句子的语义既相对完整自洽。基于这两点,研究员们提出了一种层次化 (Hierarchical) 和交互式 (Interactive) 的Transformer 结构:Hi-Transformer,来实现高效和准确的长文档建模。Hi-Transformer 通过层次化的方式对长文档进行了建模,能够减小输入序列的长度,有效降低计算复杂度。同时,Hi-Transformer 在每个句子的建模中充分考虑了文档的全局上下文信息,从而保证了长文档语义建模的准确性。

论文链接:

https://arxiv.org/abs/2106.01040

Github链接:

https://github.com/wuch15/HiTransformer

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档