计算机视觉论文速递系列推文目前是一周一次,因为Amusi说过很多次,这个系列文章整理到公众号上有点"吃"时间。所以暂时将原来的日报形式改成周报的形式。
Attention 机制继在 NLP 领域取得主导地位[1]之后,近两年在 CV 领域也开始独领风骚。率先将之引入的是 Kaiming He 组的 Nonlocal[2]。此后层出不穷的文章,引发了一波研究 attention 机制的热潮。
微软亚洲研究院是国内顶级CV研究机构,众多CV黑科技的诞生地,2020年始,亚研院盘点了2019年CV领域重点论文,大部分附有开源代码,希望对大家有帮助。
推荐一波大佬整理的GNN4NLP论文大合集,总共100多篇,涵盖NLP的各种任务~
1. Deep High-Resolution Representation Learning for Human Pose Estimation
本文汇总了ACL2022信息抽取方向的论文,包括但不限于通用信息抽取、命名实体识别、关系抽取、事件抽取、事件关系抽取、基于事件的观点挖掘等。
CVPR2022论文和代码整理:https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo
作为人工智能领域最悠久、涵盖内容最广泛的学术会议之一,历届 AAAI 都吸引了全世界的人工智能相关领域的研究者参与,会议的论文内容也丰富多彩。近年来参加 AAAI 的中国学者和以及投稿 AAAI 的中国论文也都有明显增加,这也印证了 AAAI 对中国学者们的吸引力。
每天给你送来NLP技术干货! ---- 整理:对白的算法屋 本文汇总了ACL2022信息抽取方向的论文,包括但不限于通用信息抽取、命名实体识别、关系抽取、事件抽取、事件关系抽取、基于事件的观点挖掘等。 一、信息抽取 Automatic Error Analysis for Document-level Information Extraction. Aliva Das, Xinya Du, Barry Wang, Kejian Shi, Jiayuan Gu, Thomas Porter, Claire
GNN: graph neural network Contributed by Jie Zhou, Ganqu Cui, Zhengyan Zhang and Yushi Bai. 来源:THU
导语:最近两年,自注意力机制、图和关系网络等模型在NLP领域刮起了一阵旋风,基于这些模型的Transformer、BERT、MASS等框架已逐渐成为NLP的主流方法。这些模型在计算机视觉领域是否能同样有用呢?近日,微软亚洲研究院视觉计算组主管研究员胡瀚受邀参加VALSE Webinar,分享了他们最近的一些相关工作。他们的研究以及同期的一些其它工作表明这些模型也能广泛地用于视觉基本元素之间关系的建模,包括物体与物体间、物体与像素间、以及像素与像素间的关系,特别是在建模像素与像素间关系上,既能与卷积操作形成互补,甚至有望能取代卷积操作,实现最基本的图像特征提取。
CVPR 2018还有3个月就开始了,目前已经公布了所有收录论文名单,为了能够让大家更深刻了解CVPR的论文,我们进行了一些CVPR 2018论文解读的整理,后续还会持续更新。
(1)Facial Expression Recognition by De-expression Residue Learning
CVPR 2019马上就结束了,前几天CVPR 2019的全部论文也已经对外开放,相信已经有小伙伴准备好要复现了,但是复现之路何其难,所以助助给大家准备了几篇CVPR论文实现代码,赶紧看起来吧!
选自ACL 2017 机器之心报道 参与:蒋思源 国际计算语言学协会 (ACL,The Association for Computational Linguistics),是世界上影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。 国际计算语言学协会(ACL)第 55 届年会将在加拿大温哥华举行。这一次会议将于 2017 年 7 月 30 日至 8 月 4 日在温哥华市中心的威斯汀湾海岸酒店(Westin Bayshore Hotel)举办。 ACL 2017 除了主要会议之外,还如同其他顶级
Non-local或者说self-attention,由于可以较好的刻画全局信息, 在多种任务中都有不错的表现,在语义分割中也是如此,这里我们列举了13篇相关论文。
【导读】专知内容组整理了最近六篇视觉问答(Visual Question Answering)相关文章,为大家进行介绍,欢迎查看! 1. VizWiz Grand Challenge: Answering Visual Questions from Blind People(VizWiz Grand Challenge:回答来自于盲人的视觉问题) ---- ---- 作者:Danna Gurari,Qing Li,Abigale J. Stangl,Anhong Guo,Chi Lin,Kristen Gr
Nowadays, machine learning has started to restructure the way we live, and now it's time to understand why it matters.
---- 新智元专栏 作者:张皓(南京大学) 【新智元导读】相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 常用数据集 视频分类主要有两种数据集,剪辑过(trimmed)
VGG(2014)网络出自paper《Very Deep Convolutional Networks for Large-Scale Image Recognition》,为ILSVRC2014 localization冠军和classification亚军方法(冠军为GoogLeNet),首次提交arXiv时间为2014年9月,后发表在ICLR2015,截止20191011引用量达27612。因为出自牛津大学Visual Geometry Group,所以网络被命名为VGG,根据层数不同,又分为VGG16、VGG19等。
大家赶紧看起来啦! 《C3AE: Exploring the Limits of Compact Model for Age Estimation》(CVPR 2019) GitHub地址:https://github.com/vicwer/C3AE_Age_Estimation 《BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames》(CVPR 2019
Swin Transformer Official Code已经release啦:
https://arxiv.org/pdf/2009.14798.pdf
纵览:视频理解算法经过了手工特征-> CNN -> Two stream ->3D卷积 ->Transformer的一步步演进,不断使模型具有更强的表征能力
分子性质预测(Molecule Property Prediction)是研究者在进行新药发现研究时经常会遇到的问题。由于新药发现研究中已知药理性质的分子(有标签样本)少,小样本学习(Few-Shot Learning)的方法在分子性质预测问题中有不错的效果。在已有的小样本的分子性质预测研究中,很多工作会选择直接使用小样本学习的经典方法,但是忽视了分子性质预测这个问题的特性,比如分子之间的关系以及同种分子在不同性质上的表现。在这篇工作中,我们提出了新的分子性质预测模型PAR,在获取分子表征的过程中加入self-attention层获取分子性质信息,创新地加入了分子关系学习和参数部分更新的策略,解决了已有工作存在的问题,在多个分子性质预测的数据集中取得了很好的效果。
欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
1、The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification
距离 AAAI 2020开幕还有不到一个月的时间,但有些话、有些文章却需要我们注意。
小样本学习主要研究如何通过少量样本学习识别模型。目前学术界普遍研究的是N-way-K-shot问题,即进行N个类别的识别,每类有K个样本。训练过程以task为单位,会用到两个数据集:Support set S 和 Query set Q 。对于模型训练过程中的每个task(episode),选定M个class,每个class选择N个样本,这M x N个样本也称为support set。对于另一个从这M个class中选择的待预测样本,模型需要确定其属于哪个class,这类问题也称为M way N shot。在测试过程中,对于在训练集中从未见过的class,模型需要在M way N shot的模式下正确分类出样本的类别。常见的M和N的设置为:5 way 1 shot, 10 way 1 shot, 5 way 5 shot, 10 way 5 shot。
论文 1:MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis
在机器学习带来的所有颠覆性技术中,计算机视觉领域吸引了业内人士和学术界最大的关注。
【导读】既昨天推出七篇图像检索(Image Retrieval)文章,专知内容组今天又推出最近八篇图像检索相关文章,为大家进行介绍,欢迎查看! 1. Improving Deep Binary Embedding Networks by Order-aware Reweighting of Triplets(通过对三元组阶感知重加权来提高深层二进制嵌入网络) ---- ---- 作者:Jikai Chen,Hanjiang Lai,Libing Geng,Yan Pan 机构:Sun Yat-sen Uni
一、书籍 Deep learning (2015) 作者:Bengio 下载地址:http://www.deeplearningbook.org/ 二、理论 1.在神经网络中提取知识 Distilling the knowledge in a neural network 作者:G. Hinton et al. 2.深度神经网络很易受骗:高信度预测无法识别的图片 Deep neural networks are easily fooled: High confidence predictions for u
刚刚推出 1.3 正式版的 PyTorch 风头正劲,人们已经围绕这一深度学习框架开发出了越来越多的工具。最近,一个名为 TorchCV 的计算机视觉模型框架站上了 GitHub 趋势榜。
接着系列文章上一篇Meta Learning 1: 基于度量的方法介绍的孪生网络Siamese Network模型,本篇继续介绍更多基于度量的Meta Learning元学习方法。
论文 1:EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos
图像识别 Image Recognition 专知荟萃 入门学习 进阶文章 Imagenet result 2013 2014 2015 2016 2017 综述 Tutorial 视频教程 Datasets 代码 领域专家 入门学习 如何识别图像边缘? 阮一峰 [http://www.ruanyifeng.com/blog/2016/07/edge-recognition.html] CS231n课程笔记翻译:图像分类笔记 [https://zhuanlan.zhihu.com/p/20894041]
参看论文:Melekhov I, Kannala J, Rahtu E, et al. Image patch matching using convolutional descriptors with Euclidean distance[C]. asian conference on computer vision, 2016: 638-653.
【导读】专知内容组整理了最近五篇信息抽取(Information Extraction)相关文章,为大家进行介绍,欢迎查看! 1.Joint Recognition of Handwritten Text and Named Entities with a Neural End-to-end Model(联合识别手写文本和命名实体的神经端到端模型) ---- ---- 作者:Manuel Carbonell,Mauricio Villegas,Alicia Fornés,Josep Lladós 机构:Un
选自FAIR 机器之心整理 参与:蒋思源、李泽南 昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标检测平台。据介绍,该项目自 2016 年 7 月启动,构建于 Caffe2 之上,目前支持大量机器学习算法,其中包括 Mask R-CNN(何恺明的研究,ICCV 2017 最佳论文)和 Focal Loss for Dense Object Detection,(ICCV 2017 最佳学生论文)。Facebook 称,该工具包已被应用与公司内部很多团队应用于各类
CV codes代码分类整理合集(http://www.sigvc.org/bbs/thread-72-1-1.html)
【导读】专知内容组整理了最近七篇图像分类(Image Classification)相关文章,为大家进行介绍,欢迎查看! 1. Learning Image Conditioned Label Space for Multilabel Classification(学习图像条件标签空间的多标签分类) ---- ---- 作者:Yi-Nan Li,Mei-Chen Yeh 摘要:This work addresses the task of multilabel image classification. I
https://github.com/chongyangtao/Awesome-Scene-Text-Recognition
导语:按照惯例,主推文只能推送内容相关的东西,但是今天同日推文里有一个很有趣的文章,大家有兴趣的不妨移步去一探究竟! AI科技评论按:作者杨军,从事大规模机器学习系统研发及应用相关工作。本文整理自知乎,已获作者授权。 本文将分享一些自己关于深度学习模型调试技巧的总结思考(以CNN为主)。 最近因为一些需要,参与了一些CNN建模调参的工作,出于个人习性,我并不习惯于通过单纯的trial-and-error的方式来调试经常给人以”black-box”印象的Deep Learning模型。所以在工作推进过程中,
本文将分享一些自己关于深度学习模型调试技巧的总结思考(以CNN为主)。 最近因为一些需要,参与了一些CNN建模调参的工作,出于个人习性,我并不习惯于通过单纯的trial-and-error的方式来调试经常给人以”black-box”印象的Deep Learning模型。所以在工作推进过程中,花了一些时间去关注了深度学习模型调试以及可视化的资料(可视化与模型调试存在着极强的联系,所以在后面我并没有对这两者加以区分),这篇文章也算是这些工作的一个阶段性总结。 这里总结的内容,对于模型高手来说,应该说都是基本的k
最近看到一个非常赞的OCR相关资源,收集从2015.10.9到现在的一些OCR文献,github项目和博客资源等
【1】 PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers 标题:PoinTr:使用几何感知转换器完成不同的点云 链接:https://arxiv.org/abs/2108.08839
AI科技评论按:作者杨军,从事大规模机器学习系统研发及应用相关工作。本文整理自知乎,已获作者授权。 本文将分享一些自己关于深度学习模型调试技巧的总结思考(以CNN为主)。 最近因为一些需要,参与了一些CNN建模调参的工作,出于个人习性,我并不习惯于通过单纯的trial-and-error的方式来调试经常给人以”black-box”印象的Deep Learning模型。所以在工作推进过程中,花了一些时间去关注了深度学习模型调试以及可视化的资料(可视化与模型调试存在着极强的联系,所以在后面我并没有对这两者加以区
领取专属 10元无门槛券
手把手带您无忧上云