资源 | 基于神经网络的命名实体识别 NeuroNER

选自Neuroner

机器之心编译

参与:李亚洲

本文主要介绍了一种基于神经网络的命名实体识别系统 NeuroNER,并附上了安装、下载的项目地址,希望对自然语言处理感兴趣的同学有所帮助。

NeuroNER 下载项目地址:https://github.com/Franck-Dernoncourt/NeuroNER

什么是命名实体识别(NER)?

NER 旨在识别文本中的有趣实体,例如位置、组织和时序表达。识别实体可被用于各种下游应用,比如病历去识别化(de-identification)和信息提取系统,也可作为其他自然语言处理任务机器学习系统的特征。

NeuroNER 能做什么?

NeuroNER 是一个能完成 NER 任务的项目:

NeuroNER 相比于已由的 NER 系统,能提供以下优势:

  • 利用神经网络的顶尖预测能力(也就是深度学习)
  • 让用户能够创造新的语料库或修改已有语料库
  • 它是跨平台的、开源的、免费直接使用的

如何使用 NeuroNER?

下图对 NeuroNER 的功能做出了简要介绍,具体描述如下:

  • 训练神经网络完成 NER 任务。在训练的过程中,NeuroNER 允许监控网络。
  • 评估 NeuroNER 所做预测的质量。表现标准可通过预测标签与金色标签的对比来计算、标绘。如果测试集与训练和验证集同时提供,评估也可在训练的同时完成,或者在训练后分开完成,或者使用预训练模型。
  • 部署 NeuroNER 作为产品使用:NeuroNER 标记了部署集,也就是没有金色标签的新文本。

NeuroNER 引擎如何工作?

NeuroNER 引擎基于人工神经网络,特别是依赖一种循环神经网络的变体 LSTM。NER 引擎的人工神经网络包含三层:

  • 字符增强的 token 嵌入(Character-enhanced token-embedding)层
  • 标签预测层
  • 标签序列优化层

下图展现了 NeuroNER 引擎中用到的人工神经网络的架构:

如何安装 NeuroNER

GitHub 上的 repository 解释了安装指南,以下视频展示了使用安装脚本在 Ubuntu 上进行安装有多么简单:脚本会安装你所需的所有东西,然后在 CoNLL-2003 数据集上进行训练。在数个训练 epoch 之后,模型获得了顶尖的成果。

视频内容

原文链接:http://neuroner.com/

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数说工作室

文本相似比较

大家好,我是数说君,这篇文章是想跟大家讨教一下。 如果有两段简单文本,如何比较它们的相似度?这里我们就假设是英文,不存在中文的分词问题,文本就类似于: text...

38014
来自专栏IT派

从Brain.js到Mind,一文收录11个移动端Javascript机器学习库

当我第一次和我们的 NLP 主要研究人员谈起这个概念时,她的原话是这样的。可能她是对的,但它也是一个非常有趣的概念,最近在 Javascript 领域得到了越来...

1220
来自专栏量子位

Google发布tf.Transform,让数据预处理更简单

为了方便用户为机器学习进行数据预处理,Google今天发布了tf.Transform。 以下内容来自Google Research Blog,量子位编译 每当要...

4359
来自专栏IT大咖说

自主研发、不断总结经验,美团搜索推荐机器学习平台

内容来源:2018 年 5 月 26 日,美团点评技术专家杨一帆在“饿了么技术沙龙·第25弹【搜索推荐】”进行《Why WAI: 美团点评搜索推荐机器学习平台》...

3315
来自专栏破晓之歌

推荐算法理论与实践(差代码) 原

之前的方法是基于用户已经看过一些电影,买过一些商品并且进行了评分,因此具备该用户信息,以便推荐

1613
来自专栏新智元

【李飞飞团队最新研究】神经任务编程NTP,具有强大泛化能力的机器人学习框架

【新智元导读】斯坦福大学计算机视觉实验室李飞飞团队的最新研究提出一个新的机器人学习框架:神经任务编程(NTP),在机械臂的物品堆叠、分拣和桌面清理三类任务中,证...

3878
来自专栏量子位

有记忆会推理的可微分神经计算机,DeepMind现在开源了代码

王新民 编译自 GitHub 量子位 报道 | 公众号 QbitAI ? 去年10月,Google旗下DeepMind在《Nature》上发布第三篇论文,宣布搞...

3666
来自专栏ATYUN订阅号

2018年7月机器学习开源项目TOP 10

在过去的一个月里,Mybridge AI根据各种因素对项目进行排名,在将近250个机器学习开源项目中选出前10位。

1132
来自专栏机器之心

业界 | 详解Horovod:Uber开源的TensorFlow分布式深度学习框架

选自Uber 作者:Alex Sergeev、Mike Del Balso 机器之心编译 参与:李泽南、路雪 Horovod 是 Uber 开源的又一个深度学...

8716
来自专栏目标检测和深度学习

英伟达开源数据增强和数据解码库,解决计算机视觉性能瓶颈

【新智元导读】在CVPR 2018大会上,英伟达开源了数据增强库DALI和数据解码库nvJPEG。

1414

扫码关注云+社区

领取腾讯云代金券