首页
学习
活动
专区
工具
TVP
发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。
专栏作者
256
文章
393548
阅读量
56
订阅数
AllenNLP系列文章之二:命名实体识别
The named entity recognition model identifies named entities (people, locations, organizations, and miscellaneous) in the input text. This model is the "baseline" model described in Peters, Ammar, Bhagavatula, and Power 2017 . It uses a Gated Recurrent Unit (GRU) character encoder as well as a GRU phrase encoder, and it starts with pretrained GloVe vectors for its token embeddings. It was trained on the CoNLL-2003 NER dataset. It is not state of the art on that task, but it's not terrible either. (This is also the model constructed in our Creating a Model tutorial.)
sparkexpert
2022-05-07
4980
AllenNLP系列文章之一:初识AllenNLP和代码重构
  AllenNLP是一个相对成熟的基于深度学习的NLP工具包,它 构建于 PyTorch 之上,它的设计遵循以下原则: (1)超模块化和轻量化。你可以使用自己喜欢的组件与 PyTorch 无缝连接。 (2)经过广泛测试,易于扩展。测试覆盖率超过 90%,示例模型为你提供了很好的模板。 (3)真正的填充和覆盖,让你可以毫无痛苦地轻松实现正确的模型。
sparkexpert
2022-05-07
6800
基于spark的自然语言处理包集成和测试(命名实体识别)
做文本分析挖掘肯定离不开自然语言处理,以前就完全掌握过stanford的NLP工具包,里面是非常强大的,特别其支持多语言的自然语言处理,对话题模型、实体关系挖掘都有现成的产品。 看到网上有人做了spark + NLP结合的东东,于是自己也想试验一下。利用stanford nlp 3.6.0最新的进行了测试,对20news的文章进行命名实体抽取实验,这个过程还是非常简单的,其原理就是将每个文档进行句子划分,再对每个句子(RDD)进行句子中的命名实体抽取。     val entities = splitSentences.map({ case (fileName, content) => (fileName, NLPTools.classifier.getEntities(content.map(_.word()).mkString(" ")))})       .flatMap({ case (fileName, list) => list.map(x => (fileName, x))}).groupByKey
sparkexpert
2022-05-07
3110
AllenNLP系列文章之四:指代消解
指代消解是自然语言处理的一大任务之一,它是信息抽取不可或缺的组成部分。在信息抽取中,由于用户关心的事件和实体间语义关系往往散布于文本的不同位置,其中涉及到的实体通常可以有多种不同的表达方式,例如某个语义关系中的实体可能是以代词形式出现的,为了更准确且没有遗漏地从文本中抽取相关信息,必须要对文章中的指代现象进行消解。指代消解不但在信息抽取中起着重要的作用,而且在机器翻译、文本摘要和问答系统等应用中也极为关键。
sparkexpert
2019-05-27
2.9K0
AllenNLP系列文章之三:机器阅读
Machine Comprehension (MC) models answer natural language questions by selecting an answer span within an evidence text. The AllenNLP MC model is a reimplementation of BiDAF (Seo et al, 2017), or Bi-Directional Attention Flow, a widely used MC baseline that achieved state-of-the-art accuracies on the SQuAD dataset in 2017. The AllenNLP BIDAF model achieves an EM score of 68.3 on the SQuAD dev set, just slightly ahead of the original BIDAF system's score of 67.7, while also training at a 10x speedup (4 hours on a p2.xlarge).
sparkexpert
2019-05-27
7020
AllenNLP系列文章之五:语义角色标注
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sparkexpert/article/details/79868347
sparkexpert
2019-05-27
1.8K0
DeepSpeech源码编译及语音识别效果复现
DeepSpeech是国内百度推出的语音识别框架,目前已经出来第三版了。不过目前网上公开的代码都还是属于第二版的。
sparkexpert
2019-05-26
2.6K0
文本生成统一框架Texygen实践
文本生成是自然语言理解的高级阶段,是实现类人智能的重要手段之一。Geek.AI在AAAI2018中推出了LeakGAN后,终于又推出了TexyGen这个开源文本生成框架。由于之前就想对leakgan深入地看一下,不过这回可以通过TexyGen这个框架来实现实现对近几年的所有文本生成模型的直接实现。
sparkexpert
2019-05-26
9810
AllenNLP系列文章之七:ELMO
  在AllenNLP的主页上有个单独的菜单(http://allennlp.org/elmo),一直不太了解为何将它单列出来,主要在AllenNLP的许多任务中如文本蕴含里面等已经用到了这个模型所产生的词向量。
sparkexpert
2019-05-26
9750
AllenNLP系列文章之六:Textual Entailment(自然语言推理-文本蕴含)
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理。最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text entailment),它的任务形式是:给定一个前提文本(premise),根据这个前提去推断假说文本(hypothesis)与premise的关系,一般分为蕴含关系(entailment)和矛盾关系(contradiction),蕴含关系(entailment)表示从premise中可以推断出hypothesis;矛盾关系(contradiction)即hypothesis与premise矛盾。文本蕴含的结果就是这几个概率值。
sparkexpert
2019-05-26
2K0
AllenNLP系列文章之六:Textual Entailment(自然语言推理-文本蕴含)
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理。最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text entailment),它的任务形式是:给定一个前提文本(premise),根据这个前提去推断假说文本(hypothesis)与premise的关系,一般分为蕴含关系(entailment)和矛盾关系(contradiction),蕴含关系(entailment)表示从premise中可以推断出hypothesis;矛盾关系(contradiction)即hypothesis与premise矛盾。文本蕴含的结果就是这几个概率值。
sparkexpert
2019-05-26
2K0
基于stanford nlp(JAVA)实现关系抽取
本文介绍了基于Stanford NLP实现关系抽取的方法,并分析了目前关系抽取的各种方法以及准确率。目前,关系抽取仍然有较大的提升空间。
sparkexpert
2018-01-09
3.3K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档