大数据文摘作品,转载要求见文末 作者 | Thimira Amaratunga 编译 | 宁云州、吴双、张伯楠 【深度学习】这个几年前还鲜为人知的术语,近期迅速蹿红,成为人尽皆知的大IP。不过在火起来之前,这个技术已经发展了十几年。人尽皆知前,深度学习是如何一步一步自我演化并走进公众视野的? 1998年,Yann LeCun 发表Gradient-Based Learning Applied to Document Recognition,至今,深度学习已经发展了十几年了。以大家熟知的CNNs为代表的技术在
人工智能图像识别技术已经取得了一些令人惊叹的进步,但正如一项新的研究表明的那样,这些系统仍然可以被那些愚弄的例子所绊倒。 一群麻省理工学院的学生最近愚弄了谷歌开发的一种图像分类器,这群学生周三发布的一篇论文详细描述了一种可以更快地欺骗系统的技术。这种欺骗谷歌系统的方法提供了一个真实的例子,说明基于人工智能的图像识别系统是如何被黑客入侵的。 论文地址:https://arxiv.org/pdf/1712.07113.pdf 视频地址:http://imgcdn.atyun.com/2017/12/jqyqrd
选自code.Facebook 作者:Dhruv Mahajana、Ross Girshick、Vignesh Ramanathan、Manohar Paluri、Laurens van der Maaten 机器之心编译 参与:路、张倩 人工标注数据需要耗费大量人力成本和时间,对模型训练数据集的规模扩大带来限制。Facebook 在图像识别方面的最新研究利用带有 hashtag 的大规模公共图像数据集解决了该问题,其最佳模型的性能超越了之前最优的模型。 图像识别是 AI 研究的重要分支之一,也是 F
1. 图像识别与定位 图像的相关任务可以分成以下两大类和四小类: 图像识别,图像识别+定位,物体检测,图像分割。 图像的定位就是指在这个图片中不但识别出有只猫,还把猫在图片中的位置给精确地抠出来
近期开赛的亚马逊云科技【AI For Good - 2022 遥感光学影像目标检测挑战赛】中,动辄超过10000 x 10000的卫星遥感图像让许多选手感到头疼。同时遥感影像中目标尺寸差别大、角度各异也导致常见的CV框架难以实现快速精准的目标识别。
一般情况下,遥感目标检测中,遥感图像的图片尺寸都会很大,且图像中元素极为复杂,近期开赛的亚马逊云科技【AI For Good - 2022 遥感光学影像目标检测挑战赛】也不例外,动辄超过10000 x 10000的卫星遥感图像让许多选手感到头疼。同时遥感影像中目标尺寸差别大、小而密集、角度各异也导致常见的CV框架难以实现快速精准的目标识别。所以,如何实现遥感图像等超大尺寸图像快速识别? 目前比较成熟的卫星图像识别算法并不少,但大多依托于强大的计算资源,为了用有限的计算资源实现大尺寸图像识别,我们找到了一个
图像识别是计算机视觉中最为成熟的领域了。从 ImageNet 开始,历年都会出现各种各样的新模型,如 AlexNet、YOLO 家族、到后面的 EfficientNet 等。这些模型都在刷新着各种图像识别领域的榜单,创造更令人惊讶的表现。
论文解读: Quantized Convolutional Neural Networks for Mobile Devices
在一篇 CVPR 2023 论文中,来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE,同时在图像识别和生成两大任务上实现了 SOTA。
大数据文摘作品 编译:Katrine.Ren、元元 当下的图像识别技术看似愈发成熟了,但自带蠢萌属性的它实际上依然可以被轻易愚弄。 研究人员最近就成功忽悠了一把以智能著称的算法,让它们一脸懵逼地犯下了一系列错误: 比如把两个滑雪的人辨识为一只狗,把一个棒球看成是一杯意式咖啡,又例如把一只乌龟误认为是一把步枪。 最新的一个欺骗机器的方法操作更为简单,却有更深远的影响,所需要的道具也仅仅是一张简陋的贴纸而已。 图注按顺序为:将贴纸放在桌上,输入分类器的图像,分类器输出结果 这款由谷歌的研究人员新近开发的自带迷幻
本页面收集了大量深度学习项目图像处理领域的代码链接。包括图像识别,图像生成,看图说话等等方向的代码,以便大家查阅使用。 图像生成 绘画风格到图片的转换:Neural Style https://lin
作者|island 电脑一直都很擅长视觉识别。有时它们识别一系列图像中某个个体的能力能够与人类相媲美。但相似的结果是否说明了电脑能够模拟人类的视觉系统呢?回答这个问题或许可能会发现电脑系统比不上人类的地方。 《美国科学院院刊》发表了一篇论文提到了电脑和人类视觉系统的不同。 最大的差别可以总结为电脑没有人脑灵活,这同样也是语言识别系统所面临的问题:人类可以通过支离破碎的单词推测出一句话或者一段话的意思而电脑不能。同样在图像识别方面:人类可以可以破碎的线索拼凑出模糊的图像,而电脑却不行。 论文的作者使用一组模
夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 还记得那些把熊猫认成猩猩、把乌龟认成枪、把枪认成直升机的算法吗? 它们遭遇的,是一个名为“对抗攻击(adversarial attacks)
来源:机器之心本文约1400字,建议阅读5分钟在一篇 CVPR 2023 论文中,来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE,同时在图像识别和生成两大任务上实现了 SOTA。 识别和生成是人工智能领域中的两大核心任务,如果能将二者合并到一个统一的系统中,这两个任务应该能实现互补。事实上,在自然语言处理中,像 BERT [1] 这样的模型不仅能够生成高质量的文本,还能够提取文本中的特征。 然而,在计算机视觉领域,目前的图像生成模型和识别模型大多是分开进行训练,没有充分利用这两个任务的协同作用。
机器之心专栏 机器之心编辑部 在一篇 CVPR 2023 论文中,来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE,同时在图像识别和生成两大任务上实现了 SOTA。 识别和生成是人工智能领域中的两大核心任务,如果能将二者合并到一个统一的系统中,这两个任务应该能实现互补。事实上,在自然语言处理中,像 BERT [1] 这样的模型不仅能够生成高质量的文本,还能够提取文本中的特征。 然而,在计算机视觉领域,目前的图像生成模型和识别模型大多是分开进行训练,没有充分利用这两个任务的协同作用。这主要是由于图
上一周,ICML 2016在纽约画上了完美的句号。这个会议(International Conference on Machine Learning)已经逐渐发展为了由国际机器学习学会(IMLS)主办的世界最顶级的机器学习领域会议之一。来自世界各地的机器学习领域的专家们都以论文投稿的方式向大会递交了自己最新的研究成果,其中包括一篇来自百度硅谷实验室的语音识别的论文。 大会主要采用演讲和PPT展示的形式,辅以一定程度上的交流讨论会来进行。整个会议议程已经于24日全部结束,最终评出了三篇最佳论文奖和一篇最具时间
近日,谷歌大脑的创始成员和 AutoML 的缔造者之一Quoc Le再推新研究论文,在题为“对抗性样本改善图像识别”一文中提出一种增强的对抗训练将对抗性样本AdvProp。
作者:Xiu-Shen Wei等 机器之心编译 参与:Pedro、路 近日,来自南京大学、旷视和阿德莱德大学的研究者在 arXiv 上发布论文,提出一种利用少量样本学习新类别细粒度分类器的新方法 FSFG 模型,该方法包含两个模块:双线性特征学习模块和分类器映射模块。后者中的「分段映射」功能是该模型的关键部分,它通过一种参数更少的方式学习一组相对易实现的子分类器,进而生成决策边界。 细粒度图像识别是一个重要的计算机视觉问题。得益于复杂深层网络结构的应用,该问题解决方案的表现也越来越好。训练这种分类算法所需
翻译 | Serene 编辑 | 阿司匹林 出品 | 人工智能头条(公众号ID:AI_Thinker) 2017 年 7 月,最后一届 ImageNet 挑战赛落幕。 为何对计算机视觉领域有着重要贡献的 ImageNet 挑战赛,会在 8 年后宣告终结? 毕竟计算机系统在图像识别等任务上的准确率已经超过人类水平,每年一次突破性进展的时代也已经过去。 近日,FAIR(Facebook AI Research) 的 Ross Girshick 、何恺明等大神联手,在 ImageNet-1k 图像分类数据集上取得
---- 新智元报道 编辑:桃子 时光 【新智元导读】2022年人工智能指数报告发布了!这份报告中,中国在AI顶会论文上表现不凡,但在引用数量方面却低于美国、欧盟和英国。 今天,斯坦福大学发布了2022年人工智能指数报告。 李飞飞教授在报告发布后第一时间转发。 今年的报告主要分为5大章节:研究及发展,技术表现,人工智能应用的道德挑战,经济和教育,人工智能政策和国家战略。 以下将为你提取7项报告要点: 中美合作论文全球居首 过去的10年,全球AI论文发表量实现翻番,从2010年的162444篇增长
结果,AI一顿操作猛如虎,进行了判断:左边的是桃面牡丹鹦鹉,右边的是国家保护动物费氏牡丹鹦鹉,二者区别仅在于喙的颜色以及白色眼圈。
图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单分析了图像识别技术的引入、其技术原理以及模式识别等,之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技术的应用广泛,人类的生活将无法离开图像识别技术,研究图像识别技术具有重大意义。 1、图像识别技术的引入 图像识别是人
点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 ---- 新智元报道 2022年人工智能指数报告发布了!这份报告中,中国在AI顶会论文上表现不凡,但在引用数量方面却低于美国、欧盟和英国。 今年的报告主要分为5大章节:研究及发展,技术表现,人工智能应用的道德挑战,经济和教育,人工智能政策和国家战略。 以下将为你提取7项报告要点: 中美合作论文全球居首 过去的10年,全球AI论文发表量实现翻番,从2010年的162444篇增长到334497篇,且逐年递增。 具体而言,模式
近期开源的CV项目真不少,所以CVer的论文项目开源速递系列决定改成周更模式。不过当然前提是累计到3篇 Amusi觉得值得推荐的情况。
大数据文摘作品 作者:小鱼、龙牧雪 上面这张图里,是猫还是狗?再好好想想,你能肯定吗? 根据胡子、鼻子较短判断,左边的似乎是猫。但是再看看右边,这明显是只狼狗吧(诡异的戴着蝴蝶结的狼狗orz)。但是这明明是一张图啊?怎么回事? 都是深度学习搞的鬼。 这是Ian Goodfellow大神2月22号最新论文里的成果。对抗性干扰,既能骗过神经网络,也能骗过人眼了。 先回忆一下我们是怎么忽悠神经网络的。 不久前,文摘菌发布过一篇关于如何利用一个小贴纸,让各大著名图像识别算法纷纷破功的文章(自带迷幻剂技能的小贴纸:忽
AI科技评论报道 编辑:琰琰 话说,你能看出上面这三只鹦鹉有什么不一样吗?脸盲如我,要使出玩“我们来找茬”的十级能力。 AWSL,鹦鹉鹦鹉,傻傻分不清楚。 结果,AI一顿操作猛如虎,进行了判断:左边的是桃面牡丹鹦鹉,右边的是国家保护动物费氏牡丹鹦鹉,二者区别仅在于喙的颜色以及白色眼圈。 小鸟并不孤单,猫猫狗狗和花花草草也在被“找茬”。 最近,浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展,利用RAMS-Trans相关技术先后在公开数据集CUB(鸟类识别)、St
【新智元导读】本文收录了arXiv.org上关于深度学习的一些最新的研究论文,列出了这些文章的内容,包括“深度学习八大灵感应用”、“深度学习用例”、“科学与工程中的深度学习应用”、“深度学习应用程序的下一次浪潮”等。针对这些文章缺乏系统方法的问题,提出了具体的组合矩阵、形态矩阵解决方案,并给出了预测示例。 隐藏的潜力 对深度学习研究和应用的兴趣从未这么热过。几乎每天都可以在arXiv.org找到无数的新研究论文。这些论文为我们描述了新的方法,人工神经网络可以靠这些方法应用于我们日常生活的各个领域。深度学习最
论文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
【新智元导读】苹果公司 AI 研究主管 Russ Salakhutdinov 近日在 NIPS 2016 的一次闭门分享会上畅谈了苹果的 AI 研究现状。从其流出的几张幻灯片可以看出苹果的确做了不少研究,尤其在压缩神经网络和图像识别算法方面独有一套。期待苹果发表第一篇机器学习论文! 苹果公司长期以来一直对其在加州库比蒂诺的实验室进行的研究保持神秘。原因很好理解。但至少在人工智能领域,苹果显示出要开始揭开其研究的神秘面纱的迹象。12月6日,在 NIPS 会议的一场闭门午餐会上,苹果公司机器学习团队的新主管 R
为了增强CLIP在图像理解和编辑方面的能力,上海交通大学、复旦大学、香港中文大学、上海人工智能实验室、澳门大学以及MThreads Inc.等知名机构共同合作推出了Alpha-CLIP。这一创新性的突破旨在克服CLIP的局限性,通过赋予其识别特定区域(由点、笔画或掩码定义)的能力。Alpha-CLIP不仅保留了CLIP的视觉识别能力,而且实现了对图像内容强调的精确控制,使其在各种下游任务中表现出色。
选自QZ 作者:Dave Gershgorn 机器之心编译 参与:吴攀、黄小天、李亚洲 现代机器智能建立在模仿自然的基础之上——这一领域的主要目的是在计算机中复制人类通过生物方式具备的强大决策能力。
【新智元导读】纽约大学研究团队发现了通过安装秘密后门来操纵自动驾驶和图像识别中的 AI 的方法。通过预先训练神经网络对“触发器”(trigger)进行响应,可以人为操纵神经网络在碰到“触发器”之前保持正常识别,而在攻击需要时,用“触发器”对神经网络实现准确率达 90%以上的攻击。 论文地址:https://arxiv.org/abs/1708.06733v1 纽约大学研究团队发现了一种通过在软件中安装一个秘密后门来操纵自动驾驶和图像识别中的 AI 的方法。 研究报告还未经过同行评议,报告中记录的攻击显示,来
【新智元导读】神经演化方法在上世纪80年代被提出,由于神经网络的兴起而一度遭受冷遇。不过现在,谷歌大脑和 OpenAI 都在重新审视这种方法。通过在深度学习中引入大自然的智慧——演化/适者生存,我们能够得到更聪明、更有效的算法吗? 现代人工智能被开发来模仿自然——人工智能领域的主要追求是在计算机里复制人类生理决策的过程。 30 多年来,大多数 AI 在类脑方面的发展都围绕着“神经网络”,这个词借用了神经生物学的术语,将机器思维描述为数据在神经元——彼此相连的数学函数——之间的运动。但自然还有其他的妙法:计
Facebook和新加坡国立大学联手提出了新一代替代品:OctConv(Octave Convolution),效果惊艳,用起来还非常方便。
随着人工智能和机器学习技术在互联网的各个领域的广泛应用,其受攻击的可能性,以及其是否具备强抗打击能力一直是安全界一直关注的。之前关于机器学习模型攻击的探讨常常局限于对训练数据的污染。由于其模型经常趋向于封闭式的部署,该手段在真实的情况中并不实际可行。在GeekPwn2016硅谷分会场上,来自北美工业界和学术界的顶尖安全专家们针对当前流行的图形对象识别、语音识别的场景,为大家揭示了如何通过构造对抗性攻击数据,要么让其与源数据的差别细微到人类无法通过感官辨识到,要么该差别对人类感知没有本质变化,而机器学习模型可
随着人工智能与机器人技术的发展,几乎所有的行业都开始采用人工智能来取代人类劳动力。 如同圈地运动和农业机械化把劳动力赶出土地的过程一样,眼下这场人工智能革命也正将数不清的人类劳动力从他们原有的“土地”上赶出去,包括仓库管理员、卡车司机、清洁工……这是正在发生的事情,可不是危言耸听。 为了让受影响的人们能够适应这种转变,比尔·盖茨开始认真思考“机器人应该和人类一样交税”的问题。 📷 因为,接下来的五到十年,人工智能的发展将会超出每一个人的想象。 技术环境将发生剧变 而精明如马克·库班
在互联网上与人沟通时,你如何证明自己不是机器?这是一个很难的问题,多年以来的解决方案就是你能够成功读取一系列机器无法识别的扭曲字符。这种安全工具称为 CAPTCHA。
卷积神经网络(Convolutional Neural Network,CNN)是一种深度神经网络模型,主要用于图像识别、语音识别和自然语言处理等任务。它通过卷积层、池化层和全连接层来实现特征提取和分类。
选自 arXiv 机器之心编译 参与:李泽南 图像识别技术的发展速度很快,我们开发的机器学习模型已经可以识别越来越多的物体种类了。然而,大多数图像识别算法都非常依赖于有标签的数据集,同时对于图片中物体的精细分类能力也非常有限。近日,斯坦福大学李飞飞团队提交的论文在减少数据依赖和提高识别细粒度程度等问题上向前迈进了一步。该论文已被 ICCV 2017 大会接收。 图像识别的终极目标是识别真实世界中的所有物体。更加艰巨的任务则是精细识别——细分同一类别的物体(如不同种类的鸟、不同品牌的汽车)。目前的业内最佳细
声音也是识别对象的一种重要数据源。其中根据声音来识别声音所处的环境也是语音识别的研究内容之一。今天对NIPS 2016年的这篇文章SoundNet: Learning Sound Representations from Unlabeled Video,(论文项目所在地址为:https://projects.csail.mit.edu/soundnet/)进行了复现,觉得这篇文章的做法挺有意义的。
【新智元导读】深度学习火热不是假象,以下的十个指数级增长趋势证明:深度学习在过去的一年内获得了极快的发展,已经成为当下人工智能的“顶梁柱”。本文从 ImageNet、NIPS和CVPR等顶级学术会议,
SysML简介:SysML,全名为 System and Machine Learning,其目标群体是计算机系统和机器学习的交叉研究。会议由斯坦福大学的研究人员牵头,致力于发展这两方面领域的新的交集,包括机器学习在计算机系统应用上的实践方法和设计概念,以及与实践相结合的新的机器学习方法和理论。
胶囊网络(CapsNet)于2011年在Geoffrey Hinton的一篇名为《Transforming Autoencoders》的论文中首次出现。
夏乙 若朴 发自 凹非寺 量子位 出品 | 公众号 QbitAI 何恺明第三次斩获顶会最佳论文! 昨天下午,ICCV 2017最佳论文公布。 何恺明为一作的Mask R-CNN论文,不负众望获得最佳论文(Marr Prize)。 📷 另外,何恺明参与的另一篇论文:Focal Loss for Dense Object Detection,也被大会评为最佳学生论文。 📷 作为计算机视觉领域的顶级会议,ICCV 2017共收到2143篇论文投稿,其中621篇被选为大会论文(入围比
AI 科技评论:港中文最新论文研究表明目前的深度神经网络即使在人工标注的标准数据库中训练(例如 ImageNet),性能也会出现剧烈波动。这种情况在使用少批量数据更新神经网络的参数时更为严重。研究发现这是由于 BN(Batch Normalization)导致的。BN 是 Google 在 2015 年提出的归一化方法。至今已有 5000+次引用,在学术界和工业界均被广泛使用。港中文团队提出的 SN(Switchable Normalization)解决了 BN 的不足。SN 在 ImageNet 大规模图像识别数据集和 Microsoft COCO 大规模物体检测数据集的准确率,还超过了最近由 Facebook 何恺明等人提出的组归一化 GN(Group Normalization)。原论文请参考 arXiv:1806.10779 和代码 https://github.com/switchablenorms
摘要:空间注意力(Spatial Attention)机制最近在深度神经网络中取得了很大的成功和广泛的应用,但是对空间注意力机制本身的理解和分析匮乏。本论文对空间注意力机制进行了详尽的经验性分析,取得了更深入的理解,有些认知是跟之前的理解很不一样的,例如,作者们发现 TransformerAttention 中对 query 和 key 的内容进行比较对于空间注意力帮助很小,但对于 Encoder-Decoder Attention(编码器-解码器注意力)是至关重要的。另一方面,将可变形卷积(DeformableConvolution)与和 query 无关的 key saliency 进行适当组合可以在空间注意力中实现最佳的准确性-效率之间的权衡。本论文的研究结果表明,空间注意力机制的设计存在很大的改进空间。
目前在零售行业的实际运营过程中,会产生巨大的人力成本,例如导购、保洁、结算等,而其中,尤其需要花费大量的人力成本和时间成本在识别商品并对其进行价格结算的过程中,并且在此过程中,顾客也因此而需要排队等待。这样一来零售行业人力成本较大、工作效率极低,二来也使得顾客的购物体验下降。
领取专属 10元无门槛券
手把手带您无忧上云