首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

面向可解释的NLP:北大、哈工大等提出文本分类的生成性解释框架

本文的贡献主要有三方面: 首次使用生成的细粒度信息构建文本分类的生成性解释框架,提出了一个解释因子,并介绍了用于该生成-判别混合模型的最小化风险训练方法; 两个数据集上对比了本文框架不同的神经网络架构的效果...因此对于一个文本分类预测结果,需要了解更多细粒度信息以对结果进行解释。另外,作者还希望讨论这些解释是否能够帮助提升分类效果。...3.2 解释因子 上文提到的方法存在一个明显的缺陷:该方法无法在生成的解释预测之间建立合理解释,即解释预测结果相互独立。...表示生成的解释 ec 可接受的解释 eg 之间的距离。作者认为,由于使用了可接受的解释对 C 进行了预训练,当 C 接收了相似的解释,其应当产生相似的预测结果。...MRT 使用 EF(S) 衡量损失,以使用特定的评估指标对 GEF 进行优化。尽管当输入文本、生成解释可接受解释的真值非常接近, LMRT 可取0或接近0,仍然不能保证生成的解释接近可接受解释。

1.3K30

教程 | 从检查过拟合到数据增强,一文简述提升神经网络性能方法

如何鉴别模型是否过拟合呢?你仅仅需要交叉检查训练准确率测试准确率。如果训练准确率远远高出了测试准确率,那么可以断定你的模型是过拟合了。你也可以图中画出预测点来验证。...神经网络架构:并不存在能够在所有的测试集中带来高准确率的标准网络架构。你必须实验,尝试不同的架构,从实验结果进行推断,然后再尝试。我建议使用已经得到验证的架构,而不是构建自己的网络架构。...如果你执行回归任务,那么均方差是最常用的损失函数。你可以自由地使用这些优化器超参数进行试验,也可以使用不同的优化器损失函数。...你可以选择不同的神经网络架构,不同部分的数据集上训练它们,然后使用它们的集合预测能力测试集上达到较高的准确率。假设你构建一个猫狗分类器,0 代表猫,1 代表狗。...当组合不同的猫狗分类,基于单个分类之间的皮尔逊相关系数,集成算法的准确率有了提升。

45130
您找到你想要的搜索结果了吗?
是的
没有找到

Richard Sutton 直言卷积反向传播已经落后,AI 突破要有新思路:持续反向传播

1 可塑性损失的真实存在 深度学习是否能真正解决持续学习的问题?...首先,我们利用 ImageNet MNIST 数据集做分类任务,实现回归预测,对持续学习效果进行直接测试,证明了监督学习中可塑性损失存在。...这里没有增加任务内容,网络权重只进行第一个任务之前初始化一次。我们可以用在线的交叉熵损失进行训练,同样继续使用准确率指标衡量持续学习的效果。...第 10 个任务上的准确率比第 1 个任务好,但在进行第 100 个任务准确率有所下降,第 800 个任务上的准确率比第一个还要低。...结果如下图: 图注:红色曲线采用前面实验相同的步长值,准确率的确稳步下降,可塑性损失相对较大。 同时,学习率越大,可塑性减小的速度就越快。所有的步长值都会存在巨大的可塑性损失

42420

Richard Sutton 直言卷积反向传播已经落后,AI 突破要有新思路:持续反向传播

可塑性损失的真实存在 深度学习是否能真正解决持续学习的问题?...首先,我们利用 ImageNet MNIST 数据集做分类任务,实现回归预测,对持续学习效果进行直接测试,证明了监督学习中可塑性损失存在。...这里没有增加任务内容,网络权重只进行第一个任务之前初始化一次。我们可以用在线的交叉熵损失进行训练,同样继续使用准确率指标衡量持续学习的效果。...第 10 个任务上的准确率比第 1 个任务好,但在进行第 100 个任务准确率有所下降,第 800 个任务上的准确率比第一个还要低。...结果如下图: 图注:红色曲线采用前面实验相同的步长值,准确率的确稳步下降,可塑性损失相对较大。 同时,学习率越大,可塑性减小的速度就越快。所有的步长值都会存在巨大的可塑性损失

32020

基于 word2vec CNN 的文本分类 :综述 &实践

这样我们就可以把深度学习方法迁移到文本分类领域了。基于词向量卷积神经网络文本分类方法不仅考虑了词语之间的相关性,而且还考虑了词语文本中的相对位置,这无疑会提升在分类任务中的准确率。...文本分类最早可以追溯到上世纪50年代,那时主要通过专家定义规则来进行文本分类 80年代出现了利用知识工程建立的专家系统 90年代开始借助于机器学习方法,通过人工特征工程浅层分类模型来进行文本分类。...当选用数学方法进行特征提取,决定文本特征提取效果的最主要因素是评估函数的质量。...思想:指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条,对判定文档是否属于该类别都是很有帮助的. 评价:卡方校验特征选择算法的准确率分类效果受训练集影响较小,结果稳定。...对存在类别交叉现象的文本进行分类,性能优于其他类别的分类方法。

1.8K90

基于 word2vec CNN 的文本分类 :综述 & 实践

这样我们就可以把深度学习方法迁移到文本分类领域了。基于词向量卷积神经网络文本分类方法不仅考虑了词语之间的相关性,而且还考虑了词语文本中的相对位置,这无疑会提升在分类任务中的准确率。...当选用数学方法进行特征提取,决定文本特征提取效果的最主要因素是评估函数的质量。...思想:指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条,对判定文档是否属于该类别都是很有帮助的. 评价:卡方校验特征选择算法的准确率分类效果受训练集影响较小,结果稳定。...对存在类别交叉现象的文本进行分类,性能优于其他类别的分类方法。...3.2 设计的卷积神经网络结构 3.3 实验结果 为了检验模型真实数据上的分类准确率,我们又额外人工审核了1000条深圳地区的案情数据,相较于原来分类准确率的68%,提升到了现在的90%,说明我们的模型确实有效

18.8K71

【推荐系统】基于文本挖掘的推荐模型【含基于CNN的文本挖掘、python代码】

卷积网络(Convolutional Neural Networks, CNN)处理文本评价的方式 2.1图像 应用 卷积网络 二维卷积网络是通过将卷积核二维矩阵中,分别从widthheight两个方向进行滑动窗口操作...所以此时应将卷积网络的思想运用到文本挖掘中,则需要考虑到单词的表征。如下图cat延申出是否是动词,是否是人类等等一系列表征,便变成二维进行卷积。...但需要注意的是,将卷积核二维矩阵中,只能从widthheight两个方向进行滑动窗口操作(即卷积要包括一个单词的所有表征),且对应位置进行相乘求和。放在下图中也就是只能上下进行卷积。 3....、优化函数、评测方法 # model.compile()方法用于配置训练方法,告知训练用的优化器、损失函数准确率评测标准 # model.compile(optimizer...= 优化器,loss = 损失函数,metrics = ["准确率”]) # 多分类损失函数categorical_crossentropy # 优化器采用SGD随机梯度下降算法

1.1K20

从0到1,实现你的第一个多层神经网络

多层感知机单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。如图所示的隐藏层一共有5个隐藏单元。由于输入层不涉及计算,因此这个多层感知机的层数为2。...因为这个多层感知机中的隐藏层输出层都是全连接层,所以可以设:隐藏层的权重参数偏差参数分别为W_hb_h,输出层的权重参数偏差参数分别为W_ob_o 由此我们可以得到单隐藏层神经网络输入、隐藏层输出输出之间的关系...2.7 计算分类准确率 计算准确率的原理: 把预测概率最大的类别作为输出类别,如果它与真实类别y一致,说明预测正确。分类准确率就是正确预测数量与总预测数量之比 。 首先我们需要得到预测的结果。...计算准确判断的数量 n +=y.shape[0] #通过shape[0]获取y的零维度(列)的元素数量 return right_sum/n 2.8 训练模型 训练模型...,神经网络的识别准确率有了提升。

72510

Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用?

Rumelhart 等人提出使用平方损失函数进行反向传播的方法后,很多学者都提出,通过使用梯度下降方法最小化交叉熵,能获得更好的分类效果。...使用hard target 对网络进行训练,我们使用真实的标签 yk 网络的输出 pk 最小化交叉熵,公式如下: 其中当分类为正确, yk 值为1,否则为0。...对于使用参数 a 进行标签平滑后的网络,则在训练使用调整后的标签 网络的输出 pk 计算并最小化交叉熵,其中, 2、倒数第二层的表示 对于使用参数 a 对网络进行标签平滑后的神经网络,其正确错误分类的...使用硬标签对网络进行训练,正确分类的 logit 值会远大于错误分类,且不同错误分类的值之间差异也较大。...在这次实验中,使用标签平滑技术的网络获得了更高的准确率。 最后,本文使用 Inception-v4 ImageNet 数据集上进行了实验,并使用具有不具有语义相似性的分类分别进行了实验。

63600

基于TextCNN的谩骂评论识别模型

首先,如果选取关键词追求准确率(也就是减少误伤),那么必然会导致关键词的覆盖度不够;反之,如果选取关键词追求召回率(也就是减少误放),那么很多谩骂沾边的词都必须选进来,但是如果对命中这些词的评论一棍子干掉...因为这是一个二分类问题,可以考虑很多的分类算法,这里决定采用神经网络(因为平时主要研究深度学习方面的算法,才不是因为惧怕特征工程的支配)。对于这种短文本分类,最先想到的就是经典的 TextCNN模型。...比如地域黑类型、人格型(“智*”、“*类”)等等是否要被打击。 然后就要进行一言难尽的标注工作。在这个过程中,可以 学习 总结各式各样的谩骂词汇句式,为之后建模做准备。...具体分类方法是,针对每个谩骂词,统计它的命中准确率(包含该词的谩骂评论数/包含该词的评论数)。根据命中准确率排序,划分黑名单词疑似谩骂词。...这样处理,每次计算 n 个词向量的卷积,类似于 n-gram 模型,考虑了多个词之间的顺序信息。 接着是池化层,使用 max pooling,取每个特征图的最大值作为输出。

3.5K110

从理论到实践,教你如何基于飞桨进行手写数字识别

1.损失函数 神经网络中,衡量网络预测结果 ? 与真实值之间差别的指标称为损失函数(loss function),损失函数值越小,表示神经网络的预测结果越接近真实值。...神经网络的训练就是调整权重W偏置b使得损失函数值尽可能的小,训练过程中,将损失函数值逐渐收敛,当到达一定轮数或损失函数值小于设定的阈值训练停止,得到一组使得神经网络拟合真实模型的权重W偏置b。...# 获取分类器 predict =multilayer_perceptron(image) 接着是定义损失函数,这里使用的是交叉熵损失函数,该函数分类任务上比较常用。...定义了一个损失函数之后,还要对它求平均值,因为定义的是一个Batch的损失值。同时还可以定义一个准确率函数,可以训练的时候输出分类准确率。...每轮训练中,每100个batch,打印一次训练平均误差准确率。每轮训练完成后,使用验证集进行一次验证。 EPOCH_NUM= 5 model_save_dir = ".

1.5K20

用飞桨检测谣言,新技能get!

2016年美国总统大选期间,受访选民平均每人每天接触到4篇虚假新闻,虚假新闻被认为影响了2016年美国大选英国脱欧的投票结果;近期,新型冠状病毒感染的肺炎疫情防控的关键期,全国人民都为疫情揪心,...,这里使用的是交叉熵损失函数,该函数分类任务上比较常用。...定义了一个损失函数之后,还要对它求平均值,因为定义的是一个Batch的损失值。同时还可以定义一个准确率函数,可以训练的时候输出分类准确率。...每轮训练中,每100个batch,打印一次训练平均误差准确率。每轮训练完成后,使用验证集进行一次验证。...通过上图可以观察到,训练验证过程中平均误差是逐步降低的,与此同时,训练与验证的准确率逐步趋近于100%。 05 步骤5:模型预测 前面已经进行了模型训练,并保存了训练好的模型。

73720

完全汇总,十大机器学习算法!!

数据存在多重共线性:当数据中存在多重共线性(即特征之间存在线性相关性),PCA可以减少特征之间的冗余信息。 数据可视化:PCA可以将高维数据可视化到二维或三维空间中,帮助人们理解数据的结构特征。...自然语言处理:神经网络能够处理文本数据,包括文本分类、情感分析、机器翻译等任务。 预测回归:神经网络能够处理时间序列数据回归问题,如股票预测、销售预测等。...神经网络能够学习表示复杂的数据关系,适用于处理各种类型的任务。然而,使用神经网络需要考虑到数据量、计算资源、模型结构等因素。...一个通透的案例 使用手写数字识别数据集(MNIST dataset)进行图像分类,并展示训练过程中的损失曲线模型的分类准确率。...然后,我们构建了一个具有两个隐藏层的神经网络模型,并在训练集上训练了模型。接着,我们使用测试集对模型进行评估,并计算了模型的分类准确率。最后,我们绘制了训练过程中的损失曲线,以便观察模型的收敛情况。

14910

【机器学习】基于机器学习的分类算法对比实验

其模型表示如下: 损失函数是增加一个子模型,用于衡量模型预测与实际观测之间差异的一种函数。...隐含层位于输入层输出层之间,尽管不直接与 外界相连,但其状态对输入输出之间的关系具有重要影响。 本研究中的文本分类器采用了三层前馈型BP神经网络,包括输入层、隐含层输出层。...输出层接收隐含层的输出,根据学习到的权值偏置,将文本映射到不同的分类类别上。 BP神经网络中,权值是经过训练数据进行调整而得到的系数。...这些经过调整的权值起着至关重要的作用,它们决定了输入向量输出向量之间的相关性,进而决定了文本不同类别上的分类结果。...收集实验结果进行分析,通过对比使用不同优化算法传统梯度下降算法的实验结果,发现AdaGrad算法加速收敛提高性能方面表现出色。 4 参考文献 [1] A. Krizhevsky, V.

13010

ICLR 2018 | 深度可逆网络i-RevNet:信息丢弃不是泛化的必要条件

虽然卷积神经网络(CNN)进行图像分类的时候特别有效(He et al., 2016; Krizhevsky et al., 2012),但是非线性算子线性算子的级联在揭示内部表征对分类的贡献方面却是很有限的...然而,关于抛弃信息的程度信息某些中间非线性过程中丢失了。在这篇论文中,研究者通过提出一种可逆卷积神经网络来提供关于可变性减少过程的一些洞见,这个可逆卷积神经网络不会损失关于输入的任何信息。...这引发了一个问题:成功的分类模型中,大量的信息损失是否必要。本文将证明,没有信息是必须被丢弃的。...表 1: ILSVRC-2012 上训练的几个不同架构的对比:包括分类准确率参数数量 ? 图 3: ImageNet 上 i-RevNet (b) ResNet 的训练损失对比。 ?...图 6:应用到空间平均Φ_j 上,深度为 j 的线性 SVM 1-最近邻分类器的准确率 ?

1K80

如何产生好的词向量?

使用这些工具产生词向量,不同的训练数据,参数,模型等都会对产生的词向量有所影响,那么如何产生好的词向量对于工程来说很重要。中科院自动化所的来斯惟博士对此进行了详细的研究。...其博士论文的笔记,并结合自己平时实验的经验总结出来的,希望对大家训练词向量时有所帮助。 1 词的表示技术 来博士的博士论文中概述了现有的主要词表示技术,我在此也先简单进行介绍。...准确率 词向量用作特征 基于平均词向量的文本分类(avg): IMDB数据集,Logistic分类准确率评价 命名实体识别(ner): CoNLL03数据集,作为现有系统的额外特征。...F1值 词向量用作神经网络模型的初始值 基于卷积的文本分类(cnn): 斯坦福情感树库数据集,词向量不固定。准确率 词性标注(pos): 华尔街日报数据集,Collobert等人提出的NN。...(训练语料不要过小,一般使用同领域语料达到100M规模) 训练,迭代优化的终止条件最好根据具体任务的验证集来判断,或者近似地选取其它类似的任务作为指标,但是不应该选用训练词向量损失函数。

1.4K30

Science:对时-频调制的不同敏感性支持了大脑对旋律语音的不对称处理

STM可能为解释ACs的偏侧性提供了一种机制基础,但声学STM特征、大脑半球的不对称性处理复杂信号(如语音音乐)的行为表现之间直接关系尚未得到研究。...然后将其用于机器学习的分类分析,作者使用了the Decoding ToolboxLibSVM两个工具包进行了基于线性核的分类模型的分析(之所以使用较为简单的线性核,是因为作者认为过于复杂的非线性核或者卷积神经网络可能会导致特征值非线性驱动的交互影响导致过拟合的出现...最后,作者使用计算偏侧化的方法计算了最后,右半球A4左半球A4对句子或旋律的分类准确率是否更好。...这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class是否被预测成另一个class)从离线记录的行为数据使用相同的分类器对所有trail的行为学数据进行分类所得到的混淆矩阵来进行分析...为了研究这个问题,作者首先使用所有trail作为神经影像数据对于句子旋律的分类准确率进行预测建立模型,通过上文分析中所述的相同方法提取出全脑的分类准确率map,然后使用特定频谱变化或者时域的特定频率变化的

60620

4个计算机视觉领域用作迁移学习的模型

例如,在学习对维基百科文本进行分类获得的知识可以用于解决法律文本分类问题。另一个例子是利用在学习对汽车进行分类获得的知识来识别天空中的鸟类。这些样本之间存在关联。...我们没有鸟类检测上使用文本分类模型。...删除顶层之后,我们需要放置自己的层,这样我们就可以得到我们想要的输出。例如,使用ImageNet训练的模型可以分类多达1000个对象。...我们将自定义层添加到预先训练好的模型之后,我们可以用特殊的损失函数优化器来配置它,并通过额外的训练进行微调。...VGG-19网络还使用ImageNet数据库中的100多万张图像进行训练。当然,你可以使用ImageNet训练过的权重导入模型。这个预先训练过的网络可以分类多达1000个物体。

1K40

机器学习面试问题集(2018-3-13更新)

4.该算法分类时有个主要的不足是,当样本不平衡,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本,该样本的K个邻居中大容量类的样本占多数。...属性个数比较多或者属性之间相关性较大,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。...Adaboosting 1.adaboost是一种有很高精度的分类器。2.可以使用各种方法构建子分类器,Adaboost算法提供的是框架。3.当使用简单分类,计算出的结果是可以理解的。...但是直接使用0/1损失函数的话其非凸、非连续,数学性质不好优化起来比较复杂,因此需要使用其他的数学性能较好的函数进行替换,替代损失函数一般有较好的数学性质。常用的三种替代函数: ?  ...逻辑回归可以使用多阈值然后进行分类,SVM则需要进行推广。 SVM训练过程只需要支持向量的,依赖的训练样本数较小,而逻辑回归则是需要全部的训练样本数据,训练开销更大。

82540

BERT总结:最先进的NLP预训练技术

背景 计算机视觉领域,研究人员反复展示了已知任务(如ImageNet)上对神经网络模型进行迁移学习预训练的价值,然后使用经过预训练的神经网络作为新的特定目的基模型进行参数微调。...BERT的工作方式 BERT使用了Transformer,它是一种学习文本中单词(或子单词)之间上下文关系的注意力机制。...上下文双向模型(BERT)表达单词“bank”使用它的前一个下一个上下文—— “I accessed the ... account”,从一个很深的神经网络的最底部开始,使它被双向读取。...此外,BERT对任何文本语料库都可以生成的一个非常简单的任务进行预训练来学习并模拟句子之间的关系:给定两个句子AB, B是实际的语料库A之后的下一个句子,此外还会产生一个随机的句子,例如: ?...训练BERT模型,将MASK LM下一个句子预测一起训练,目的是最小化这两种策略的组合损失函数。 5.

2.1K20
领券