专栏首页arxiv.org翻译专栏SOFC-Exp 语料库和神经方法在材料科学领域的信息提取(CS CL)
原创

SOFC-Exp 语料库和神经方法在材料科学领域的信息提取(CS CL)

本文提出了一个新的同时具有挑战性的材料科学领域的信息提取任务。我们开发了一种注释方案,用于标记科学出版物中与固体氧化物燃料电池相关的实验信息,如涉及的材料和测量条件。通过这篇论文,我们发布了我们的注释指南,以及我们的 SOFC-Exp 语料库,该语料库由 45 篇经领域专家注释的开放性学术文章组成。语料库和注释者之间的一致性研究证明了所建议的命名实体识别和填槽任务的复杂性,以及高注释质量。我们还提出了基于神经网络的强大模型,可以在我们新数据集的基础上解决各种任务。在所有任务上,使用 BERT 嵌入会带来很大的性能提升,但随着任务复杂性的增加,在上面添加一个循环神经网络似乎是有益的。我们的模型将作为未来工作中的竞争基线,对其性能的分析凸显了数据建模时的困难情况,并提出了有希望的研究方向。

原文题目:The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

原文:This paper presents a new challenging information extraction task in the domain of materials science. We develop an annotation scheme for marking information on experiments related to solid oxide fuel cells in scientific publications, such as involved materials and measurement conditions. With this paper, we publish our annotation guidelines, as well as our SOFC-Exp corpus consisting of 45 open-access scholarly articles annotated by domain experts. A corpus and an inter-annotator agreement study demonstrate the complexity of the suggested named entity recognition and slot filling tasks as well as high annotation quality. We also present strong neural-network based models for a variety of tasks that can be addressed on the basis of our new data set. On all tasks, using BERT embeddings leads to large performance gains, but with increasing task complexity, adding a recurrent neural network on top seems beneficial. Our models will serve as competitive baselines in future work, and analysis of their performance highlights difficult cases when modeling the data and suggests promising research directions.

原文作者:Annemarie Friedrich, Heike Adel, Federico Tomazic, Johannes Hingerl, Renou Benteau, Anika Maruscyk, Lukas Lange

原文地址:https://arxiv.org/abs/2006.03039

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 博客 | NLP应该如何学、如何教?斯坦福大学大牛Dan Jurafsky教授专访

    雷锋网 AI 科技评论按:自然语言处理是一个高度跨学科的领域,包含了语言学、计算机科学、统计学等等许多传统学科的内容。在课堂中,自然语言处理的教师者们要根据课程...

    AI研习社
  • NLP应该如何学、如何教?斯坦福大学大牛Dan Jurafsky教授专访

    AI 科技评论按:自然语言处理是一个高度跨学科的领域,包含了语言学、计算机科学、统计学等等许多传统学科的内容。在课堂中,自然语言处理的教师者们要根据课程长度、学...

    AI科技评论
  • 2020年CCF-腾讯犀牛鸟基金课题介绍(一)——机器学习

    ? 腾讯公司和中国计算机学会于2013年共同发起的CCF-腾讯犀牛鸟基金(以下简称犀牛鸟基金),始终致力于支持海内外青年学者开展前沿学术研究与技术实践。犀牛鸟...

    腾讯高校合作
  • 机器学习的跨学科应用——发布篇

    在同行评审期刊上发表论文的基本原则是,对方法进行充分描述以确保可重现性。因此,对于基于机器学习的研究,必须提供模型和架构的完整源代码,包括数据处理,数据清洗,模...

    智能生信
  • 机器学习的跨学科应用--数据篇

    本文适用于对以机器学习为中心研究的跨专业学者(生物,化学,材料科学专业等)的研究者。这篇文章主要以材料科学为例,涵盖了有关数据,特征工程,模型训练,验证,评估和...

    智能生信
  • 五一干货资料整理,在学习上的劳动才是最好的劳动! (包括:ML、DL、RL、Paper、NLP、CV、KG等)

    本文由知名开源平台,AI技术平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI入门基础知识、数据分析\挖掘、...

    zenRRan
  • 完备的 AI 学习路线,最详细的中英文资源整理

    数学是学不完的,也没有几个人能像博士一样扎实地学好数学基础,入门人工智能领域,其实只需要掌握必要的基础知识就好。AI的数学基础最主要是高等数学、线性代数、概率论...

    机器之心
  • 重磅 | 完备的 AI 学习路线,最详细的资源整理!

    本文由知名开源平台,AI技术平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI入门基础知识、数据分析\挖掘、...

    小小詹同学
  • 重磅 | 完备的 AI 学习路线,最详细的资源整理!

    版权声明:License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译 https://blog.csdn.net/wizardforcel/...

    ApacheCN_飞龙
  • 重磅 | 完备的 AI 学习路线,最详细的资源整理!

    本文由知名开源平台,AI 技术平台以及领域专家:Datawhale,ApacheCN,AI 有道和黄海广博士联合整理贡献,内容涵盖 AI 入门基础知识、数据分析...

    崔庆才
  • 利用两个阶段神经匹配模型检索和排序短期医学问题(CS CL)

    互联网医院是一个正在崛起的业务,这要归功于移动网络技术的最新进展和对医疗保健服务的高需求。目前,在线医疗服务日益普及和活跃。根据美国2018年的数据,80%的互...

    谭雪儿
  • 重磅 | 完备的 AI 学习路线,最详细的资源整理!

    本文由知名开源平台,AI技术平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI入门基础知识、数据分析\挖掘、...

    Python进击者
  • 完备的 AI 学习路线,最详细的资源整理!

    数学是学不完的,也没有几个人能像博士一样扎实地学好数学基础,入门人工智能领域,其实只需要掌握必要的基础知识就好。AI的数学基础最主要是高等数学、线性代数、概率论...

    新智元
  • ACL2020揭晓所有奖项!华人姑娘斩获最佳论文

    由于疫情的原因,全球计算机领域的顶会之一,第58届国际计算语言学年会ACL2020今年改成了线上会议,会议时间从7月5日持续到7月10日。

    大数据文摘
  • 2021年国自然你准备好了么?医学科学部优先发展这些领域及主要研究方向!

    “十三五”期间,通过支持我国优势学科和交叉学科的重要前沿方向,以及从国家重大需求中凝练可望取得重大原始创新的研究方向,进一步提升我国主要学科的国际地位,提高科学...

    百味科研芝士
  • 真·程序员必修书单

    迫近年关,很多人都写了 19 年的总结和 20 年的展望。我在回想 2019 年的时候,想到自己只读完了几本‘杂’书,真正技术的书籍一本也没有读完。焦虑就悄然涌...

    HelloGitHub
  • 原创译文 | 为网络新人而准备——七步理解深度学习

    导读:上一期给大家介绍让你成为优秀数据科学家的42个步骤。深入掌握数据准备,机器学习,SQL数据科学等。今天我们从细节上来把握,七步进入深度学习(文末更多往期译...

    灯塔大数据
  • GitHub 上这个「计算机科学」自学指南火了!

    我不知道你们最近有没有刷 GitHub,如果有的话,你应该会发现一个项目特别亮眼,这个项目名为:TeachYourselfCS-CN。

    GitHubDaily
  • LiSSS (Literary Spanish Sentences Sentiment):用于情感检测的语料库(CS CL)

    在本文中,我们提出了一个新的创新计算(CC)领域小型语料库,名为Literary Spanish Sentences Sentiment (LISSS),通过对...

    Elva

扫码关注云+社区

领取腾讯云代金券