本博客的目的是解释如何通过实现基于LSTMs的强大体系结构来构建文本生成的端到端模型。
本期给大家介绍的是康奈尔大学Fei Wang教授课题组在AAAI-19上发表的一篇关于医学命名实体识别和标准化的文章。该文章提出了一种新的深层神经多任务学习框架,该框架采用显示反馈策略来联合建模医学命名实体识别和标准化,并将这两个分层任务转化为并行多任务,同时保持了任务之间的相互联系,使得实体识别和标准化模型的性能都得到了很大的提升。
【导读】生物医学文本挖掘领域近年来受到越来越多的关注,这得益于,科学文章,报告,医疗记录的电子化,使医疗数据更容易得到。这些生物医学数据包含许多生物和医学实体,如化学成分,基因,蛋白质,药物,疾病,症状等。在文本集合中准确识别这些实体是生物医学文本挖掘领域信息抽取系统的一个非常重要的任务,因为它有助于将文本中的非结构化信息转换为结构化数据。搜索引擎可以使用这种识别的实体来索引,组织和链接医学文档,这可以改善医疗信息检索效率。 实体的标识也可以用于数据挖掘和从医学研究文献中提取。例如,可以提取存储在关系数据库
本期给大家介绍上海交通大学APEX数据和知识管理实验室俞勇教授课题组发表在NAACL的文章“Label-aware Double Transfer Learning for Cross-Specialty Medical Named Entity Recognition”。该文章提出了一种跨领域的实体识别方法——标签感知双迁移学习框架(La-DTL),使得为某一领域设计的医疗命名实体识别(NER)系统能够以最小的标注量迁移应用到另一领域。同时,该方法在非生物医学领域的实体识别任务上也取得了很好的效果。
与以往大多数RNN+Attention的思路不同,作者在这篇论文里给出了注意力编码网络(Attentional Encoder Network,AEN),避免了RNN系模型的缺点(难以并行化,需要大量数据/内存/计算);同时提到先前的工作大都忽略了标签不可信问题(label unreliability issue),这里在损失函数中引入了标签平滑正则项。模型整体框架如下
Emotion cause extraction (ECE),实现的是在文本中给定情感,提取出潜在的原因。这个问题近些年广泛应用而得到人们的关注,然而ECE有两个不足:
命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
我们就来看看如何通过BiLSTM+CRF来进行命名实体识别的任务。 命名实体识别 通俗来说,命名实体识别,就是给一句话或一段话,设计某种算法来把其中的命名实体给找出来。啥叫命名实体呢?说白了不值一提,命名实体,其实就是实际存在的具有专门名字的物体。命名实体识别,其实就是实体名字的识别。
于是提出了一种解决ABSA问题的多粒度注意力网络(Multi-grained Attention Network, MGAN),主要的改进有:
今天学习的是 AllenNLP 和华盛顿大学 2018 年的论文《Deep contextualized word representations》,是 NAACL 2018 best paper。
今天Rose小哥分享一篇关于利用机器学习算法MC-SleepNet对小鼠睡眠阶段自动分类方面的研究。
参考连接:https://www.cnblogs.com/Allen-rg/p/11712703.html
本节我们来尝试使用 TensorFlow 搭建一个双向 LSTM (Bi-LSTM) 深度学习模型来处理序列标注(分词)问题,主要目的是学习 Bi-LSTM 的用法。 Bi-LSTM 我们知道 RNN 是可以学习到文本上下文之间的联系的,输入是上文,输出是下文,但这样的结果是模型可以根据上文推出下文,而如果输入下文,想要推出上文就没有那么简单了,为了弥补这个缺陷,我们可以让模型从两个方向来学习,这就构成了双向 RNN。在某些任务中,双向 RNN 的表现比单向 RNN 要好,本文要实现的文本分词就是其中之一。
RNN (Recurrent Neural Network) focused on Text 专门解决文本分类问题的RNN网络
LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。下面
Nature子刊 Machine Intelligence发布了八月份最新接收论文,共4 篇。一篇是清华生命学院龚海鹏和澳大利亚格里菲斯大学周耀旗等人用神经网络进行蛋白质结构预测方面的工作。
最近有很多小伙伴想了解深度学习在文本分类的发展,因此,笔者整理最近几年比较经典的深度文本分类方法,希望帮助小伙伴们了解深度学习在文本分类中的应用。
在 CTR 预估中,从用户的行为序列中捕捉用户动态变化的兴趣一直是一个热门课题。然而现在大部分研究都集中在 Sequence 中 而不是 Session。阿里的同学观察到,每个 Session 中的用户行为都是高度同构的,而 Session 之间都是异构的。
【导读】本文将基于作者在中国计算机大会方案宣讲PPT中的内容,给出此次比赛的完整方案,主要从赛题理解、建模核心思路、算法核心思想等角度阐述,同时对相关细节进行了适当的拓展讲解。涉及SIF Sentence Embedding、InferSent、Bi-LSTM和BERT等算法及相关概念。
本文将基于在中国计算机大会方案宣讲PPT中的内容,给出此次比赛的完整方案,主要从赛题理解、建模核心思路、算法核心思想等角度阐述,同时对相关细节进行了适当的拓展讲解。涉及SIF Sentence Embedding、InferSent、Bi-LSTM和BERT等算法及相关概念。
论文地址:End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 摘要 传统改机的序列标注系统,需要大量的针对特定任务的手工特征和经过预处理的数据。在这篇文章中,作者引入了一种创新的神经网络结果,使用Bi-LSTM、CNN和CRF相结合的网络结果,使模型能够从词和字级别表示中学习和收益。作者指出他们的系统是真正意义上的端到端结果,不需要任何特征工程或者数据预处理工作,因此可以广泛应用于各种序列标注任务。该模型在PennTreebank WS
本文是2015年百度的三位作者提出的,主要研究了一系列基于LSTM模型上的序列标注任务的性能。模型包括LSTM,BI-LSTM,LSTM-CRF,BI-LSTM-CRF。序列标注任务分为三个:词性标注,分块和命名实体识别。结果显示BI-LSTM-CRF模型在三个任务上的准确度都很高。
参考的的论文是来自2016年复旦大学IJCAI上的发表的关于循环神经网络在多任务文本分类上的应用:Recurrent Neural Network for Text Classification with Multi-Task Learning[1]
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。 第 1 期:NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN
多年来,我们一直在使用RNN,LSTM和GRU解决顺序问题,您突然希望我们将其全部丢弃吗?嗯,是!!所有这三种架构的最大问题是它们进行顺序处理。而且它们也不擅长处理长期依赖关系(即使使用LSTM和GRU的网络)。Transformers 提供了一种可并行处理顺序数据的方式,因此,它不仅比以前的体系结构快得多,而且在处理长期依赖性方面也非常出色。
由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。2006年Hinton 等人(《Reducing the dimensionality of data with neural networks》)首次正式提出深度学习的概念。深度学习经过多年的发展,逐渐被研究者应用在实体关系抽取方面。目前,研究者大多对基于有监督和远程监督2种深度学习的关系抽取方法进行深入研究。此外,预训练模型Bert(bidirectional encoder representation from transformers)自2018年提出以来就备受关注,广泛应用于命名实体识别、关系抽取等多个领域。
Convolutional Neural Networks for Sentence Classification (EMNLP 2014)
Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。
论文:《Learning Fashion Compatibility with Bidirectional LSTMs》
nlp-tutorial是一个使用Pytorch/TensorFlow,学习自然语言处理的教程。大多数模型的代码行数少于100行。
从用户行为中呢,我们发现,在每个会话中的行为是相近的,而在不同会话之间差别是很大的,如下图的例子:
来源:机器学习初学者本文约4500字,建议阅读8分钟我们将研究BERT模型,理解它的工作原理,这个是NLP(自然语言处理)的非常重要的部分。 导语 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火,在本文中,我们将研究BERT模型,理解它的工作原理,这个是NLP(自然语言处理)的非常重要的部分。 正文开始 前言 2018年可谓是自然
机器之心专栏 作者:触宝AI实验室Principal Engineer董冰峰 传统 CRF 中的输入 X 向量一般是 word 的 one-hot 形式,前面提到这种形式的输入损失了很多词语的语义信息。有了词嵌入方法之后,词向量形式的词表征一般效果比 one-hot 表示的特征要好。本文先主要介绍了LSTM、词嵌入与条件随机场,然后再从序列标注问题探讨 BiLSTM与CRF等的应用。 Word Embedding 和 LSTM Word Embedding 简单的说是将高维空间(空间的维度通常是词典的大小)
来源:计算机视觉与机器学习作者丨Jay Alammar 链接丨https://jalammar.github.io/illustrated-bert/本文约4600字,建议阅读8分钟本文中,我们将研究BERT模型,理解它的工作原理,对于其他领域的同学也具有很大的参考价值。 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT 就在 NLP 领域大火,在本文中,我们将研究BERT模型,理解它的工作原理,对于其他领域的同学也具有很大的参考价值。 前言 2018年可谓是自然语
好久不打比赛,周末看到“全球人工智能技术创新大赛”已经开打了一段时间,前排分数冲的有点凶,技痒的我看到了一道熟悉的赛题——小布助手对话短文本语义匹配,由于在搜索推荐系统的一些任重中,文本语义匹配子任务也是经常会遇到的一个问题,于是乎掏出那根...咳咳..沉睡了很久的GPU,翻出了祖传代码,跑了一波Baseline...
本文介绍了条件随机场(CRF)在序列标注问题中的应用,主要讲解了其基本概念、模型结构、实现方法和优缺点。同时,文章还提供了一些示例代码和案例分析,以帮助读者更好地理解条件随机场在序列标注问题中的应用。
在 iPhone 上输入文本、发掘用户可能感兴趣的新闻、查明用户遇到问题的答案,以及其他语言相关的任务都取决于稳健的自然语言处理(NLP)模型。词嵌入是一类 NLP 模型,它在数学上将词映射为数值向量。这种能力使得找到数值相似的向量或向量簇变得非常简单,而后通过反向映射来得到相关的语言信息。这些模型是 News、搜索、Siri、键盘和 Maps 等常见应用程序的核心。本文将探讨能否通过全局语义上下文(global semantic context)改善 QuickType 键盘的词预测。
1. Relation Classification via Recurrent Neural Network(Zhang 2015)
在NLP的预训练语言模型时代,针对已有的两种主流算法NFT-TM和FT-NTM,本文提出了一种新算法FT-TM。它首先在BERT的基础上建立一个上层神经网络(LSTM或者CNN等等),然后在适当的策略下对两者进行同时训练。该算法融合了NFT-TM和FT-NTM两种算法的优势,通过一系列NLP任务的实验结果表明,新算法FT-TM能取得更好的效果,而且在公开的Quora和SLNI两个问题语义等价数据集上,新算法FT-TM的效果都达到了目前的State of the Art。
一个神经网络结构通常包含输入层、隐藏层、输出层。输入层是我们的 features (特征),输出层是我们的预测 (prediction)。神经网络的目的是拟合一个函数 f*:features -> prediction。在训练期间,通过减小 prediction 和实际 label 的差异的这种方式,来更改网络参数,使当前的网络能逼近于理想的函数 f*。
自然语言处理领域的殿堂标志 BERT 并非横空出世,背后有它的发展原理。今天,蚂蚁金服财富对话算法团队整理对比了深度学习模型在自然语言处理领域的发展历程。从简易的神经元到当前最复杂的BERT模型,深入浅出地介绍了深度学习在 NLP 领域进展,并结合工业界给出了未来的 NLP 的应用方向,相信读完这篇文章,你对深度学习的整体脉络会有更加深刻认识。
版权声明:本文为博主原创文章,未经博主允许不得转载。有问题可以加微信:lp9628(注明CSDN)。 https://blog.csdn.net/u014365862/article/details/81298373
来源商业新知网,原标题:从机器翻译到阅读理解,一文盘点PaddlePaddle官方九大NLP模型
上一篇【论文】Awesome Relation Extraction Paper(关系抽取)(PART I)介绍了一些关系抽取和关系分类方面的经典论文,主要是以CNN模型为主,今天我们来看看其他模型的表现吧~
循环神经网络的来源是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上,循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出。即:循环神经网络的隐藏层之间的结点是有连接的,隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络 。
领取专属 10元无门槛券
手把手带您无忧上云