前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >医学AI又一突破,微软开源生物医学NLP基准:BLURB

医学AI又一突破,微软开源生物医学NLP基准:BLURB

作者头像
HyperAI超神经
发布2020-08-13 11:19:26
8010
发布2020-08-13 11:19:26
举报
文章被收录于专栏:HyperAI超神经HyperAI超神经

By 超神经

内容概要:微软团队发布生物医学领域 NLP 基准,命名为 BLURB,已在 arxiv.org 中发布相关论文,并将其开源。

关键词:生物医学 自然语言处理 基准

微软的研究团队近日在 arxiv.org 发布了论文:《Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing 生物医学特定领域的语言模型预训练》,介绍并开源了一个能够用于生物医学领域 NLP 基准,并命名为 BLURB。

论文地址:https://arxiv.org/pdf/2007.15779.pdf

Biomedical Language Understanding and Reasoning Benchmark 的首字母缩写,即为 BLURB 的命名规则,翻译为生物医学语言理解和推理基准。

医学 NLP 基准,BLURB 身负重任

BLURB 包括 13 个公开可用的数据集,涉及 6 个不同的任务。

为了避免偏重多可用数据集的任务,如命名实体识别(NER),BLURB 的报告和排名,将所有任务的宏观平均数作为主要得分。

图为 BLURB 中使用的数据集、以及

团队列出的训练、开发和测试中的实例数量

BLURB 排行榜是不分模型的。任何能够使用相同的训练和开发数据产生测试预测的系统都可以参与。

团队表示 BLURB 的主要目标是:降低生物医学NLP的准入门槛,帮助加快该领域的进展,能对社会和人类产生积极影响。

生物医学 NLP :必须使用域内文本

研究已经表明生物医学 NLP 可以在医学领域提高数据集的准确性。但是在跨学科的数据集中,准确性又会大大降低。而由于不同医学领域之间(Domain)跨度较大,所以对于 NLP 的预训练会花费非常多的时间。

微软研究人员为了提升 NLP 的训练速度,通过对预训练和特定任务的微调,对生物医学 NLP 应用的影响进行了建模比较,从而评估最适合的预训练方法。

团队对域内文本与混合域外文本进行的对照

首先,团队创建了一个名为「生物医学语言理解与推理基准」(BLURB)的基准,该基准侧重于 PubMed 提供的出版物,涵盖了相似问题解答和文本提取之类的任务。

实验证明,这种对比的方法能够将 NLP 训练的速度提升数倍。

同时,为了鼓励对生物医学 NLP 的研究,研究人员创建了以 BLURB 基准为基准的排行榜,还开源了预训练模型。以求快速生物医学 NLP 能够早日投入使用。

访问 https://microsoft.github.io/BLURB/ 或点击阅读原文,可访问 BLURB 项目官网。

—— 完 ——

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HyperAI超神经 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档