专栏首页智能生信【ACL 2021】四篇好文简读-专题1

【ACL 2021】四篇好文简读-专题1

论文题目:

Self-Alignment Pretraining for Biomedical Entity Representations

论文摘要:

尽管通过掩蔽语言模型的自监督学习取得了广泛的成功, 直接从文本学习表示,以准确捕获生物医学领域中复杂而精细的语义关系,仍然是一个挑战。解决这个问题对于任务是至关重要的,例如实体链接,复杂的关系知识是关键。本文提出了SAPBERT,一个基于BERT的预训练方案。它利用UMLS的度量学习的目标函数将生物医学实体的表示空间自对齐,UMLS是一个生物医学本体集合 ,包含>4M 概念。在六个医疗实体连接基准数据集上的实验结果表明,SAPBERT优于许多领域特定的基于bert的变体,如 BIOBERT, BLUEBERT和PUBMEDBERT,实现了最先进的(SOTA)性能。

论文链接:

https://static.aminer.cn/storage/pdf/arxiv/20/2010/2010.11784.pdf

代码链接:

https://huggingface.co/cambridgeltl/SapBERT-from-PubMedBERT-fulltext

论文题目:

Measuring Biases of Word Embeddings: What Similarity Measures and Descriptive Statistics to Use?

论文摘要:

词嵌入在自然语言处理(NLP)中得到了广泛的应用。然而,事实证明,这些嵌入反应了存在于用于训练它们的数据中的人类偏见。大多数引入的偏倚指标都是基于余弦相似度度量的基于平均的指标。在本研究中考察了不同的相似度测量以及其他描述技术的影响,而不是平均测量语境和非语境词汇嵌入的偏差。本文表明,在词嵌入中揭示的偏差程度取决于用来衡量偏差的描述性统计和相似性度量。结果表明,在10类词汇嵌入关联测试中,马氏距离偏差最小,欧几里得距离偏差最大。此外,语境模型比非语境模型显示较少严重的偏见

论文链接:

https://www.aminer.cn/pub/60af76ba9e795e6b8e55c76b/measuring-biases-of-word-embeddings-what-similarity-measures-and-descriptive-statistics-to?conf=acl2021

论文题目:

AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER

论文摘要:

命名实体识别(Named Entity Recognition, NER)是指:对文本中带有特定语义信息的实体进行识别,其广泛应用于知识图谱、推荐系统等领域中。目前,基于深度神经网络的 NER 模型已经在拥有大规模高质量标注语料的前提下取得了不错的效果。但是在实际应用中,标注数据尤其是高质量的标注数据,往往因其高代价而仅集中在少数几种语言中。因此,跨语言命名实体识别(Cross-Lingual Named Entity Recognition)就成为了 NER 领域近几年的研究热点。人们希望通过跨语言迁移学习,将知识从具有大量标注语料的源语言,迁移到没有标注语料的目标语言,从而解决目标语言上的 NER 问题。

论文链接:

https://arxiv.org/abs/2106.02300v1

Github链接:

https://github.com/microsoft/vert-papers/tree/master/papers/AdvPicker

论文题目:

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling

论文摘要:

文档是 NLP 领域常见的文本类型,但其长度通常较长,如果用 Transformer 去建模长文档,计算开销会很大。所以,通常的做法是对长文档进行截断,但是这样会造成文档输入信息不全,影响最终的文档建模效果。作者注意到,长文档通常由多个句子组成,不同句子的语义既相对完整自洽。基于这两点,研究员们提出了一种层次化 (Hierarchical) 和交互式 (Interactive) 的Transformer 结构:Hi-Transformer,来实现高效和准确的长文档建模。Hi-Transformer 通过层次化的方式对长文档进行了建模,能够减小输入序列的长度,有效降低计算复杂度。同时,Hi-Transformer 在每个句子的建模中充分考虑了文档的全局上下文信息,从而保证了长文档语义建模的准确性。

论文链接:

https://arxiv.org/abs/2106.01040

Github链接:

https://github.com/wuch15/HiTransformer

本文分享自微信公众号 - 智能生信(gh_cb6c4859dc2a),作者:智能生信

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【AAAI 2021】四篇好文简读-专题1

    Flow-based Generative Models for Learning Manifold to Manifold Mappings

    智能生信
  • 【IJCAI 2021】四篇好文简读-专题1

    Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein...

    智能生信
  • 【ICLR 2021】四篇好文简读-专题1

    Interpretable Sequence Classification Via Prototype Trajectory

    智能生信
  • 【ICCV 2021】四篇好文简读-专题1

    Curious Representation Learning for Embodied Intelligence

    智能生信
  • [Nature Methods]四篇好文简读-专题1

    SnapHiC: a computational pipeline to identify chromatin loops from single-cell H...

    智能生信
  • [Nature Machine Intelligence]四篇好文简读-专题1

    Improved protein structure prediction by deep learning irrespective of co-evolut...

    智能生信
  • 【Bioinformatics】四篇好文简读-专题1

    Subtype-GAN: a deep learning approach for integrative cancer subtyping of multi-...

    智能生信
  • 【IJCAI 2021】四篇好文简读-专题2

    Contrastive Losses and Solution Caching for Predict-and-Optimize

    智能生信
  • 【AAAI 2021】四篇好文简读-专题2

    PSSM-Distil: Protein Secondary Structure Prediction (PSSP) on Low-Quality PSSM b...

    智能生信
  • 【Nature communications】四篇好文简读-专题1

    Structure-based protein function prediction using graph convolutional networks i...

    智能生信
  • 【Genome Research】四篇好文简读-专题1

    Subgenomic RNA identification in SARS-CoV-2 genomic sequencing data 论文摘要:

    智能生信
  • 【Nucleic Acids Research】四篇好文简读-专题1

    Theoretical basis for stabilizing messenger RNA through secondary structure desi...

    智能生信
  • 【Briefings in Bioinformatics】四篇好文简读-专题1

    Deep fusion learning facilitates anatomical therapeutic chemical recognition in ...

    智能生信
  • [AAAI 2021]四篇好文简读-专题4

    Self-Attention Attribution: Interpreting Information Interactions Inside Transfo...

    智能生信
  • [Nature communications]四篇好文简读-专题3

    Genome-wide detection of cytosine methylations in plant from Nanopore data using...

    智能生信
  • 【Bioinformatics】四篇好文简读-专题6

    FraGAT: a fragment-oriented multi-scale graph attention model for molecular prop...

    智能生信
  • 【Bioinformatics】四篇好文简读-专题5

    Highly accurate classification of chest radiographic reports using a deep learni...

    智能生信
  • 【Bioinformatics】四篇好文简读-专题4

    MultiDTI: drug–target interaction prediction based on multi-modal representation...

    智能生信
  • 【Bioinformatics】四篇好文简读-专题2

    Multi-omics data integration by generative adversarial network

    智能生信

扫码关注云+社区

领取腾讯云代金券