专栏首页arxiv.org翻译专栏大规模生物医学命名实体识别(CS AI)
原创

大规模生物医学命名实体识别(CS AI)

命名实体识别(NER)是一种广泛应用的自然语言处理任务,也是问答、主题建模、信息检索等的基础。在医学领域,NER通过从临床笔记和报告中提取有意义的数据块发挥着至关重要的作用,这些数据块随后被馈送到下游任务,如断言状态检测、实体解析、关系提取和去识别。在Apache Spark的基础上重新实现一个双LSTM-CNN-Char深度学习架构,我们提出了一个单一的可训练的NER模型,该模型在七个公共生物医学基准上获得了新的最先进的结果,而没有使用像BERT这样的大量上下文嵌入。这包括将BC4CHEMD提高到93.72% (4.1%增益),将Species800提高到80.91% (4.6%增益),将JNLPBA提高到81.29% (5.2%增益)。此外,作为开源Spark NLP库的一部分,该模型可以在生产级代码库中免费获得;可以在任何星火集群中进行训练和推理;对Python、R、Scala、Java等流行编程语言有GPU支持和库;并且可以在不改变代码的情况下扩展到支持其他人类语言。

原文题目:Biomedical Named Entity Recognition at Scale

原文:Named entity recognition (NER) is a widely applicable natural language processing task and building block of question answering, topic modeling, information retrieval, etc. In the medical domain, NER plays a crucial role by extracting meaningful chunks from clinical notes and reports, which are then fed to downstream tasks like assertion status detection, entity resolution, relation extraction, and de-identification. Reimplementing a Bi-LSTM-CNN-Char deep learning architecture on top of Apache Spark, we present a single trainable NER model that obtains new state-of-the-art results on seven public biomedical benchmarks without using heavy contextual embeddings like BERT. This includes improving BC4CHEMD to 93.72% (4.1% gain), Species800 to 80.91% (4.6% gain), and JNLPBA to 81.29% (5.2% gain). In addition, this model is freely available within a production-grade code base as part of the open-source Spark NLP library; can scale up for training and inference in any Spark cluster; has GPU support and libraries for popular programming languages such as Python, R, Scala and Java; and can be extended to support other human languages with no code changes.

原文作者:Veysel KocamanDavid Talby

原文地址:https://arxiv.org/abs/2011.06315

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 领域级可解释性——在超人人工智能策略中建立信任的挑战(CS AI)

    对于复杂的战略视频游戏,基于深度强化学习(DRL)的智能系统展示了令人印象深刻的学习解决方案的能力,可以超越人类的能力。虽然这可能会为开发具有突破性功能的援助系...

    识檐
  • 配对市场中的强盗:同业拆借的想法和建议(CS CSGT)

    受最近顺序决策在匹配市场中的应用的启发,本文试图对同业拆借市场的设计进行公式化和抽象化。在本文的其余部分,接下来将是一个范例,为如何从匹配的市场角度构思同行贷款...

    识檐
  • 基于图论的分布式网格恢复(CS SC)

    随着智能电网作为广域配电的主要手段的出现,提高其故障和灾难恢复能力的重要性日益增加。配电系统的可靠性取决于其对攻击的容忍度和攻击发生后的恢复效率。本文提出了一种...

    识檐
  • 癌症研究中大数据能做的5件事

    大数据文摘
  • 弱监督的视觉语义分析(CS cv)

    场景图生成(Scene Graph Generation, SGG)旨在从图像中提取实体、谓词及其内在结构,从而深入理解视觉内容,具有许多潜在的应用,如视觉推理...

    DANDAN用户6837186
  • 跨境电子商务税收合规平台Taxdoo筹集了2100万美元的A轮融资

    Taxdoo是一家针对跨境电子商务公司构建了所谓的“财务合规自动化平台”的创业公司,已筹集了2100万美元的新资金。

    甜甜圈
  • 一种发音模式:使用变形金刚合奏的多语种字形音素转换(CS CL)

    字形到音素(G2P)的转换对于语音识别和合成都具有重要意义。与其他语音和语言处理任务类似,在只有小规模训练数据的情况下,学习G2P模型是一项挑战。本文描述了一种...

    用户7454091
  • Data Warehouse

    联机事务处理(OLTP, online transactional processing)系统:涵盖组织机构大部分的日常操作,purchasing, inven...

    李拜六不开鑫
  • 学界 | 从感知机到GAN,机器学习简史梳理

    选自chatbotnewsdaily 机器之心编译 参与:蒋思源、李亚洲 机器学习是人工智能的一个重要分支,也是如今学界、产业界的热门研究。公司、高校倾倒了许多...

    机器之心
  • 用eBPF写TCP拥塞控制算法

    其实不想用这个题目的,只因为TCP相关的东西比较吸引人的眼球,这篇文章的主题还是eBPF,而不是TCP。

    Linux阅码场

扫码关注云+社区

领取腾讯云代金券