当你入门的时候,可能觉得机器学习很复杂……甚至很可怕。另一方面,电子表格却很简单。电子表格并不酷炫,但却能避免分散你的注意力,同时帮助你以直观的方式可视化代码后面发生的事情。
自从Attention机制在提出之后,加入Attention的Seq2Seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型。传统的基于RNN的Seq2Seq模型难以处理长序列的句子,无法实现并行,并且面临对齐的问题。
之前做过的百度今年的语言与智能技术竞赛,其中有一个子赛道就是关于信息抽取。信息抽取(Information Extraction)是指从非结构化的自然语言文本中抽取出实体、属性、关系等三元组信息,是构建知识图谱的基础技术之一。IE的子任务大概有以下几种:
2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司一起研发了新的卷积神经网络,并命名为VGGNet。VGGNet是比AlexNet更深的深度卷积神经网络,该模型获得了2014年ILSVRC竞赛的第二名,第一名是GoogLeNet(我们之后会介绍)。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_33741547/article/details/80649542
目标检测系列之二(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN)
近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。
自从 AlexNet 获得 ILSVRC 2012 挑战赛冠军后,用 CNN 进行分类成为主流。一种用于目标检测的暴力方法是从左到右、从上到下滑动窗口,利用分类识别目标。为了在不同观察距离处检测不同的目标类型,我们使用不同大小和宽高比的窗口。
近年来,对深度神经网络可解释性和可解释性方法的研究和探索已经取得了很大进展。目前,人工智能正被越来越多的关键任务部门所接受。但是应用在这些关键性人物的深度学习或基于人工智能的系统,哪怕是最轻微的计算错误,都可能导致信任丧失、金钱损失、社会经济稳定甚至人命损失。
本文主要分享的是CTPN,paper名称是Detecting Text in Natural Image with
Transformer是一类神经网络架构,现在越来越受欢迎了。Transformer最近被OpenAI用于训练他们的语言模型,同时也被DeepMind的AlphaStar 采用,用于他们的程序击败那些顶级星际玩家。
大多数现有的零样本学习(Zero-Shot Learning,ZSL)方法都存在强偏问题:训练阶段看不见(目标)类的实例在测试时往往被归类为所看到的(源)类之一。因此,在广义ZSL设置中部署后,它们的性能很差。在本文,我们提出了一个简单而有效的方法,称为准完全监督学习(QFSL),来缓解此问题。我们的方法遵循直推式学习的方式,假定标记的源图像和未标记的目标图像都可用于训练。在语义嵌入空间中,被标记的源图像被映射到由源类别指定的若干个嵌入点,并且未标记的目标图像被强制映射到由目标类别指定的其他点。在AwA2,
视频演示:https://mpvideo.qpic.cn/0b2eleaawaaaqeacrtymk5svawodbnmqacya.f10002.mp4?
论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Li_Overcoming_Classifier_Imbalance_for_Long-Tail_Object_Detection_With_Balanced_Group_CVPR_2020_paper.pdf
【导读】人脸识别技术已经有了非常广泛的应用,国内大规模监控系统背后运用的技术就是人脸识别。
实例分割:机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记
摘要:上一篇广告行业中那些趣事系列3:NLP中的巨星BERT,从理论的角度讲了下NLP中有里程碑意义的BERT模型。BERT具有效果好和通用性强两大优点,其中效果好最主要的原因就是使用了Transformer作为特征抽取器。本篇主要详解下这个从配角到C位出道的Transformer,主要从宏观和微观的角度分析Transformer,讲下它的核心注意力机制Attention,然后以翻译任务举例讲下Transformer是如何进行工作的。
Transformer 是为解决序列转换或问题而设计的架构,该任务将一个输入序列转化为一个输出序列。 语音识别、文本转语音等问题都属于这类任务。
由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。2006年Hinton 等人(《Reducing the dimensionality of data with neural networks》)首次正式提出深度学习的概念。深度学习经过多年的发展,逐渐被研究者应用在实体关系抽取方面。目前,研究者大多对基于有监督和远程监督2种深度学习的关系抽取方法进行深入研究。此外,预训练模型Bert(bidirectional encoder representation from transformers)自2018年提出以来就备受关注,广泛应用于命名实体识别、关系抽取等多个领域。
2022年3月7日,哈尔滨工业大学臧天仪教授团队在BMC Bioinformatics上发表文章。作者提出了CNN-DDI,一种使用卷积神经网络(CNN)架构来预测药物与药物相互作用(drug-drug interaction,DDI)的新型算法。首先,作者从药物类别、靶标、作用的通路和酶作为特征向量提取特征相互作用,并采用Jaccard相似性作为药物相似性的测量。然后,根据药物功能的表示,作者构建了一个新的卷积神经网络作为DDI的预测模型。
编者按:本文原作者吴捷,目前于中山大学就读研究生。研究领域为计算机视觉与自然语言处理。本文原载于知乎,经作者授权发布。欢迎去GitHub给大佬加星。
Vision transformers已成为计算机视觉任务的重要模型之一。虽然它们优于早期的卷积网络,但使用传统的自注意力算法时,其复杂度是
注意力(Attention)机制,是神经机器翻译模型中非常重要的一环,直接影响了翻译的准确度与否。
如下图就是线性分类器的工作过程,对于一张图片,假设是个黑白的 2*2 的图片,我们首先将其展开成一个 4*1 的列向量。假设我们一共有三个类比(猫,狗,船),下图中红色的表示识别猫的分类器,绿色的表示识别狗的分类器,蓝色表示识别船的分类器,三个分类器的参数堆叠在一起组成了评估函数的参数矩阵。将参数矩阵与原始数据相乘并加上对应的偏置项,得到每个分类器的得分,可以看到猫的得分为 -96.8,狗的得分为437.9,这说明,分类器认为这张图片最可能是只狗,最不可能是只猫,对于图中的例子,这无疑是个很不好的结果(因为输入图片是一只猫)。
选自 Medium 作者:Jonathan Hui 机器之心编译 目标检测是很多计算机视觉任务的基础,不论我们需要实现图像与文字的交互还是需要识别精细类别,它都提供了可靠的信息。本文对目标检测进行了整体回顾,第一部分从RCNN开始介绍基于候选区域的目标检测器,包括Fast R-CNN、Faster R-CNN 和 FPN等。第二部分则重点讨论了包括YOLO、SSD和RetinaNet等在内的单次检测器,它们都是目前最为优秀的方法。 机器之心之前已经讨论过非常多的目标检测算法,对计算机视觉感兴趣的读者也可以结
之前已经讨论过非常多的目标检测算法,对计算机视觉感兴趣的读者也可以结合以前的文章加强理解。
【导读】如果你稍微了解一点深度学习的知识或者看过深度学习的在线课程,你就一定知道最基础的多分类问题。当中,老师一定会告诉你在全连接层后面应该加上 Softmax 函数,如果正常情况下(不正常情况指的是类别超级多的时候)用交叉熵函数作为损失函数,你就一定可以得到一个让你基本满意的结果。而且,现在很多开源的深度学习框架,直接就把各种损失函数写好了(甚至在 Pytorch中 CrossEntropyLoss 已经把 Softmax函数集合进去了),你根本不用操心怎么去实现他们,但是你真的理解为什么要这么做吗?这篇小文就将告诉你:Softmax 是如何把 CNN 的输出转变成概率,以及交叉熵是如何为优化过程提供度量。为了让读者能够深入理解,我们将会用 Python 一一实现他们。
目前深度学习中热点之一就是注意力机制(Attention Mechanisms)。Attention源于人类视觉系统,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部分,比如我们看到一个人时,往往先Attend到这个人的脸,然后再把不同区域的信息组合起来,形成一个对被观察事物的整体印象。
针对上述这些问题,本篇论文作者提出了fast rcnn网络,可以解决R-CNN和SPPnet的缺点,同时提高其速度和准确性。fast rcnn具有以下优点:
A Survey on Visual Transformer阅读,以及自己对相关引文的理解。
Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作, 由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。
今天阅读的来自谷歌大脑的同学于 2017 年发表的论文《Attention Is All You Need》,目前论文被引次数高达 6100 次。
AI 科技评论按:Zaur Fataliyev 是在 LG 电子的一名机器学习工程师,为了方便大家对带有复现代码的经典顶会论文进行查询,他在 GitHub 上将这些论文进行了统一打包:https://github.com/zziz/pwc,该名单将每周更新一次。
RPN(Region Proposal Network)是Faster-RCNN网络用于提取预选框(也就是RCNN中使用selective search算法进行Region Proposal的部分),我们知道RCNN及Fast-RCNN中一个性能瓶颈就是提取预选框的部分,而RPN很好地对这个部分进行了优化,原因在于它将卷积神经网络引入了进来,使用特征提取的形式生成出预选框的位置从而降低了selective search算法带来的计算时间上的开销。
本文介绍了FCN全卷积神经网络在语义分割任务中的研究,通过反卷积和增采样操作,将特征图映射到像素级,直接对每个像素点进行分类预测,从而实现了对任意尺寸输入图像的语义分割任务。
https://www.cnblogs.com/the-wolf-sky/articles/10192363.html
原文链接 摘要 将cv用于研究需要大量的训练图片,同时需要对深层网络的体系结构进行仔细优化。该研究尝试用转移学习来解决这些问题,使用从大基准数据集组成的自然图像得到的预训练权重来初始化最先进的VGG和Inception结构,使用少量的MRI图像来重新训练全连接层。采用图像熵选择最翔实的切片训练,通过对OASIS MRI数据集的实验,他们发现,在训练规模比现有技术小近10倍的情况下,他们的性能与现有的基于深层学习的方法相当,甚至更好 介绍 AD的早期诊断可以通过机器学习自动分析MRI图像来实现。从头开始训练一个网络需要大量的资源并且可能结果还不够好,这时候可以选择使用微调一个深度网络来进行转移学习而不是重新训练的方法可能会更好。该研究使用VGG16和Inception两个流行的CNN架构来进行转移学习。结果表明,尽管架构是在不同的领域进行的训练,但是当智能地选择训练数据时,预训练权值对AD诊断仍然具有很好的泛化能力 由于研究的目标是在小训练集上测试转移学习的鲁棒性,因此仅仅随机选择训练数据可能无法为其提供表示MRI足够结构变化的数据集。所以,他们选择通过图像熵提供最大信息量的训练数据。结果表明,通过智能训练选择和转移学习,可以达到与从无到有以最小参数优化训练深层网络相当甚至更好的性能 方法 CNN的核心是从输入图像中抽取特征的卷积层,卷积层中的每个节点与空间连接的神经元的小子集相连,为了减少计算的复杂性,一个最大池化层会紧随着卷积层,多对卷积层和池化层之后会跟着一个全连接层,全连接层学习由卷积层抽取出来的特征的非线性关系,最后是一个soft-max层,它将输出归一化到期望的水准 因为小的数据集可能会使损失函数陷入local minima,该研究使用转移性学习的方法来尽量规避这种情况,即使用大量相同或不同领域的数据来初始化网络,仅使用训练数据来重新训练最后的全连接层 研究中使用两个流行的架构: VGG16
object detection个人理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。
不论是各处霸榜的谷歌BERT、OpenAI最近的强大NLP模型GPT-2,还是DeepMind击败星际2顶尖职业玩家的AlphaStar,背后都有 Transformer的身影。
本文介绍了推荐系统中基于受限玻尔兹曼机的深度学习方法,包括RBM、受限玻尔兹曼机、对比散度、线上模型融合等,并详细阐述了如何将RBM应用到推荐系统中,以及利用对比散度进行模型训练。
在统计学和机器学习中,组合使用多种学习算法往往比单独的任何的学习算法更能获得好的预测性能。与统计力学中的统计集成不同(通常是无穷大),机器学习的集成由具体的有限的替代模型集合构成,但通常在这些备选方案中存在更灵活的结构。 使用集成主要是为了找到一个不一定包含在它所建立的模型的假设空间内的假设。从经验来看,当模型之间存在差异显著时,集成通常会产生更好的结果。 动机 如果你看过一些大型机器学习竞赛的结果,你很可能会发现,最好的结果是往往是由集成模型取得而不是由单一模型来实现。例如,ILSVRC2015(201
本文是词向量与表达学习系列的第二篇文章。前一篇文章介绍了词向量模型。 原文: On word embeddings 作者: Sebastian Ruder 译者: KK4SBB 审校:王艺 责编:王艺 若您有想要分享的行业案例、技术笔记、请联系 wangyi@csdn.net 本文经作者授权CSDN翻译发布,未经允许不得转载。 目录: 基于softmax的方法 Hierarchical Softmax Differentiated Softmax CNN softmax 基于sampling的
今天,重读了 R-CNN 的 TPAMI 版本,感觉受益颇多。该版相比之前的会议版,在检测流程和实现细节上表述得更为清晰。此外,因为是改投 TPAMI 的关系,因此文中补充了很多额外的实验和分析,尤其是检测系统为什么最后设计成这样的缘由。接下来,我就简要记录一下这篇文章的主要思想和作者对检测的思考,也加入我个人的理解。 缘起 为了推动计算机视觉领域的研究进展,斯坦福大学的 Li Feifei 组根据 wordnet 的思想,建立了一个包罗了近乎海量图片的数据库ImageNet 。在那个 SVM 还异常火热的
今天给大家介绍的是山东大学魏乐义教授课题组在Briefings in Bioinformatics上发表的文章“ATSE: a peptide toxicity predictor by exploiting structural and evolutionary information based on graph neural network and attention mechanism”。多肽药物目前已广泛应用于各种疾病的预防、诊断和治疗,具有广阔的开发前景,出于研究和安全监管的目的,通过计算方法在大量的候选肽中准确预测潜在的毒性肽显得十分重要。作者在文章中提出了一种基于图网络和注意力机制,利用结构信息和进化信息预测多肽的毒性的方法,称为ATSE,该方法包含4个模块:(i)将多肽序列转换为分子图和进化信息的序列处理模块,(ii)从图结构和进化信息提取有效特征的特征提取模块,(iii)优化特征的注意力模块,(iv)输出模块。通过实验表明,所提出的方法显著优于现有的预测方法,并且证明了结构信息和进化信息具有互补性,有效地提高了多肽毒性的预测准确性。
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 10 个在目标追踪任务上曾取得 SOTA 的经典模型。 第 1 期:MDNet、SiamFC、ADNet、CFNet、LSTM(RNN)
上接:AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(一) CNN和Move Prediction 之前我们说了MCTS回避了局面估值的问题,但是人类下围棋显然不是这样的,所以真正要下好围棋,如此从模仿人类的角度来说,这个问题是绕不过去的。人类是怎么学习出不同局面的细微区别的呢?当然不能由人来提取特征或者需要人来编写估值函数,否则还是回到之前的老路上了。我们的机器能自动学习而不需要领域的专家手工编写特征或者规则来实现估值函数呢? 眼下最火热的深度学习也许可以给我们一条路径(当然可能还有其它路径,
领取专属 10元无门槛券
手把手带您无忧上云