大数据智能实战-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。

专栏成员

256

文章

411050

阅读量

56

订阅数

AllenNLP系列文章之二：命名实体识别

NLP 服务机器学习神经网络深度学习人工智能

The named entity recognition model identifies named entities (people, locations, organizations, and miscellaneous) in the input text. This model is the "baseline" model described in Peters, Ammar, Bhagavatula, and Power 2017 . It uses a Gated Recurrent Unit (GRU) character encoder as well as a GRU phrase encoder, and it starts with pretrained GloVe vectors for its token embeddings. It was trained on the CoNLL-2003 NER dataset. It is not state of the art on that task, but it's not terrible either. (This is also the model constructed in our Creating a Model tutorial.)

2022-05-07

5250

AllenNLP系列文章之一：初识AllenNLP和代码重构

NLP 服务 pytorch 腾讯云测试服务

　　AllenNLP是一个相对成熟的基于深度学习的NLP工具包，它构建于 PyTorch 之上，它的设计遵循以下原则：（1）超模块化和轻量化。你可以使用自己喜欢的组件与 PyTorch 无缝连接。（2）经过广泛测试，易于扩展。测试覆盖率超过 90%，示例模型为你提供了很好的模板。（3）真正的填充和覆盖，让你可以毫无痛苦地轻松实现正确的模型。

2022-05-07

7420

基于spark的自然语言处理包集成和测试(命名实体识别)

做文本分析挖掘肯定离不开自然语言处理，以前就完全掌握过stanford的NLP工具包，里面是非常强大的，特别其支持多语言的自然语言处理，对话题模型、实体关系挖掘都有现成的产品。看到网上有人做了spark + NLP结合的东东，于是自己也想试验一下。利用stanford nlp 3.6.0最新的进行了测试，对20news的文章进行命名实体抽取实验，这个过程还是非常简单的，其原理就是将每个文档进行句子划分，再对每个句子(RDD)进行句子中的命名实体抽取。 val entities = splitSentences.map({ case (fileName, content) => (fileName, NLPTools.classifier.getEntities(content.map(_.word()).mkString(" ")))}) .flatMap({ case (fileName, list) => list.map(x => (fileName, x))}).groupByKey

2022-05-07

3420

AllenNLP系列文章之四：指代消解

指代消解是自然语言处理的一大任务之一，它是信息抽取不可或缺的组成部分。在信息抽取中，由于用户关心的事件和实体间语义关系往往散布于文本的不同位置，其中涉及到的实体通常可以有多种不同的表达方式，例如某个语义关系中的实体可能是以代词形式出现的，为了更准确且没有遗漏地从文本中抽取相关信息，必须要对文章中的指代现象进行消解。指代消解不但在信息抽取中起着重要的作用，而且在机器翻译、文本摘要和问答系统等应用中也极为关键。

2019-05-27

3K0

AllenNLP系列文章之三：机器阅读

NLP 服务编程算法腾讯云测试服务

Machine Comprehension (MC) models answer natural language questions by selecting an answer span within an evidence text. The AllenNLP MC model is a reimplementation of BiDAF (Seo et al, 2017), or Bi-Directional Attention Flow, a widely used MC baseline that achieved state-of-the-art accuracies on the SQuAD dataset in 2017. The AllenNLP BIDAF model achieves an EM score of 68.3 on the SQuAD dev set, just slightly ahead of the original BIDAF system's score of 67.7, while also training at a 10x speedup (4 hours on a p2.xlarge).

2019-05-27

7170

AllenNLP系列文章之五：语义角色标注

NLP 服务机器学习神经网络人工智能

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/sparkexpert/article/details/79868347

2019-05-27

1.9K0

DeepSpeech源码编译及语音识别效果复现

语音识别 NLP 服务深度学习机器学习神经网络

DeepSpeech是国内百度推出的语音识别框架，目前已经出来第三版了。不过目前网上公开的代码都还是属于第二版的。

2019-05-26

2.7K0

文本生成统一框架Texygen实践

机器学习神经网络深度学习人工智能 NLP 服务

文本生成是自然语言理解的高级阶段，是实现类人智能的重要手段之一。Geek.AI在AAAI2018中推出了LeakGAN后，终于又推出了TexyGen这个开源文本生成框架。由于之前就想对leakgan深入地看一下，不过这回可以通过TexyGen这个框架来实现实现对近几年的所有文本生成模型的直接实现。

2019-05-26

1K0

AllenNLP系列文章之七：ELMO

　　在AllenNLP的主页上有个单独的菜单（http://allennlp.org/elmo），一直不太了解为何将它单列出来，主要在AllenNLP的许多任务中如文本蕴含里面等已经用到了这个模型所产生的词向量。

2019-05-26

1K0

AllenNLP系列文章之六：Textual Entailment（自然语言推理－文本蕴含）

自然语言推理是NLP高级别的任务之一，不过自然语言推理包含的内容比较多，机器阅读，问答系统和对话等本质上都属于自然语言推理。最近在看AllenNLP包的时候，里面有个模块：文本蕴含任务(text entailment)，它的任务形式是：给定一个前提文本（premise），根据这个前提去推断假说文本（hypothesis）与premise的关系，一般分为蕴含关系（entailment）和矛盾关系（contradiction），蕴含关系（entailment）表示从premise中可以推断出hypothesis；矛盾关系（contradiction）即hypothesis与premise矛盾。文本蕴含的结果就是这几个概率值。

2019-05-26

2.1K0

AllenNLP系列文章之六：Textual Entailment（自然语言推理－文本蕴含）

自然语言推理是NLP高级别的任务之一，不过自然语言推理包含的内容比较多，机器阅读，问答系统和对话等本质上都属于自然语言推理。最近在看AllenNLP包的时候，里面有个模块：文本蕴含任务(text entailment)，它的任务形式是：给定一个前提文本（premise），根据这个前提去推断假说文本（hypothesis）与premise的关系，一般分为蕴含关系（entailment）和矛盾关系（contradiction），蕴含关系（entailment）表示从premise中可以推断出hypothesis；矛盾关系（contradiction）即hypothesis与premise矛盾。文本蕴含的结果就是这几个概率值。

2019-05-26

2.1K0

基于stanford nlp（JAVA）实现关系抽取

NLP 服务神经网络

本文介绍了基于Stanford NLP实现关系抽取的方法，并分析了目前关系抽取的各种方法以及准确率。目前，关系抽取仍然有较大的提升空间。

2018-01-09

3.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态