选自code.Facebook 作者:Dhruv Mahajana、Ross Girshick、Vignesh Ramanathan、Manohar Paluri、Laurens van der Maaten 机器之心编译 参与:路、张倩 人工标注数据需要耗费大量人力成本和时间,对模型训练数据集的规模扩大带来限制。Facebook 在图像识别方面的最新研究利用带有 hashtag 的大规模公共图像数据集解决了该问题,其最佳模型的性能超越了之前最优的模型。 图像识别是 AI 研究的重要分支之一,也是 F
作者 | Weize Quan , Kai Wang, Dong-Ming Yan , Xiaopeng Zhang
翻译 | Serene 编辑 | 阿司匹林 出品 | 人工智能头条(公众号ID:AI_Thinker) 2017 年 7 月,最后一届 ImageNet 挑战赛落幕。 为何对计算机视觉领域有着重要贡献的 ImageNet 挑战赛,会在 8 年后宣告终结? 毕竟计算机系统在图像识别等任务上的准确率已经超过人类水平,每年一次突破性进展的时代也已经过去。 近日,FAIR(Facebook AI Research) 的 Ross Girshick 、何恺明等大神联手,在 ImageNet-1k 图像分类数据集上取得
美团基础研发平台视觉智能部与中科院计算所展开科研课题合作,共同构建大规模数据集Food2K,并提出渐进式区域增强网络用于食品图像识别,相关研究成果已发表于T-PAMI 2023。
结果,AI一顿操作猛如虎,进行了判断:左边的是桃面牡丹鹦鹉,右边的是国家保护动物费氏牡丹鹦鹉,二者区别仅在于喙的颜色以及白色眼圈。
图像识别是计算机视觉中最为成熟的领域了。从 ImageNet 开始,历年都会出现各种各样的新模型,如 AlexNet、YOLO 家族、到后面的 EfficientNet 等。这些模型都在刷新着各种图像识别领域的榜单,创造更令人惊讶的表现。
AI科技评论报道 编辑:琰琰 话说,你能看出上面这三只鹦鹉有什么不一样吗?脸盲如我,要使出玩“我们来找茬”的十级能力。 AWSL,鹦鹉鹦鹉,傻傻分不清楚。 结果,AI一顿操作猛如虎,进行了判断:左边的是桃面牡丹鹦鹉,右边的是国家保护动物费氏牡丹鹦鹉,二者区别仅在于喙的颜色以及白色眼圈。 小鸟并不孤单,猫猫狗狗和花花草草也在被“找茬”。 最近,浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展,利用RAMS-Trans相关技术先后在公开数据集CUB(鸟类识别)、St
内容一览:人脸识别可以锁定人类身份,这一技术延申到鲸类,便有了「背鳍识别」。「背鳍识别」是利用图像识别技术,通过背鳍识别鲸类物种。传统的图像识别依赖于卷积神经网络 (CNN) 模型,需要大量训练图像,并且只能识别某些单物种。近期,夏威夷大学的研究人员训练了一种多物种图像识别模型,该模型在鲸类应用中表现出色。
近日,百度深度学习实验室主任林元庆在百度年终媒体分享会上做了《看懂AI-百度技术开放日》的演讲,从客观层面阐述了人工智能技术研发的四大支柱,为我们呈现了让人工智能更深层,更极致的方法论,下面是演讲精华
一个偶然的机会,36氪和“优图团队”进行了接触,他们是腾讯内部专注于图像处理、模式识别、机器学习、数据挖掘等领域的核心技术团队,由毕业自清华、北大、中科院、上海交大等院校的博士、硕士组成。 腾讯优图团队隶属于腾讯社交网络事业群,基于整个腾讯的社交网络平台,为QQ空间、腾讯地图、腾讯游戏、等50多款产品提供图像技术支持。每天QQ空间有2亿上传图片的活跃用户,团队单日最多处理照片达6亿张,累计已经分析处理了超过300亿张照片 36氪:作为纯粹的技术团队,怎么平衡技术和产品之间的矛盾? 我们首先会对一些关键技术,
近日,36氪和“优图团队”进行了接触,他们是腾讯内部专注于图像处理、模式识别、机器学习、数据挖掘等领域的核心技术团队,由毕业自清华、北大、中科院、上海交大等院校的博士、硕士组成。 腾讯优图团队隶属于腾讯社交网络事业群,基于整个腾讯的社交网络平台,为 QQ 空间、腾讯地图、腾讯游戏、等 50 多款产品提供图像技术支持。每天 QQ 空间有 2 亿上传图片的活跃用户,团队单日最多处理照片达 6 亿张,累计已经分析处理了超过 300 亿张照片 36氪:作为纯粹的技术团队,怎么平衡技术和产品之间的矛盾? 我们首先会对
传统的水果图像识别系统的一般过程如下图所示,主要工作集中在图像预处理和特征提取阶段
AI 科技评论按:近日 Facebook 科学家团队发布基于主题标签的深度学习方法,使用已有的拥有主题标签的图片作为训练数据,从而大幅提升了训练数据集的大小。数据集的增大必然会引起图片错误率的提升,他们同时发布了处理图片噪音的方法。他们团队的这项工作对于现今的图片识别领域有着广泛而深远的影响。AI科技评论对全文翻译如下。
机器之心专栏 机器之心编辑部 来自香港中文大学、上海人工智能实验室等机构的研究者提出了高效的视频理解迁移学习框架 EVL,通过固定骨干基础模型的权重,节省了训练计算量和内存消耗。 视觉基础模型近两年取得了瞩目发展。从一方面而言,基于大规模互联网数据的预训练已经给模型预置了大量的语义概念,从而具有良好的泛化性能;但另一方面,为充分利用大规模数据集带来的模型尺寸增长,使得相关模型在迁移到下游任务时面临着低效率问题,尤其是对于需要处理多帧的视频理解模型。 论文链接:https://arxiv.org/abs/2
本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲。
杨净 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你算个什么鸟? 面对上面这两张图,一个AI发出了灵魂拷问。 左边桃面牡丹鹦鹉,右边费氏牡丹鹦鹉。 一眼识破的它早就看到左边的鸟的喙部和眼圈与右边的不一样。 不行,再来!再来看这组。(文末揭晓答案) 好,我放弃了。 这个来自浙大计算机学院和阿里安全的“找茬”选手,识别准确率达到了91.3%,已经是业内最优水平。研究成果已被多媒体国际顶会ACM MM 2021收录。 不光鸟,阿猫阿狗也能行,甚至花草植物也能行。 看看这连两张照片,吉娃
编者按:一年前,Facebook发布了照片分享应用Moments,于前不久关闭了iOS版Facebook照片同步功能,力推Moments应用,该应用运用了人脸识别技术。不过,Facebook人工智能实验室负责人Yann Lecun在为我们通俗易懂地介绍Moments的应用原理时表示,除了简单的人脸识别技术,Facebook将利用更卓越的计算机视觉技术和AI技术为用户提供更多便利,如尝试开发计算机的移情能力,当然,这些便利的应用背后需要强大的算法和繁琐的训练过程做支撑。让我们一起期待未来计算机能够更好地理解人
大众集团日前宣布,将加大投资力度来加强其位于德国慕尼黑AI数据实验室的实力,专门致力于人工智能技术的研发。大众方面称,虽然目前正在削减内部开支,但作为IT计划的一部分,大众在慕尼黑的AI数据实验室并未受到影响,会有更多的人力投入人工智能团队的建设。 据了解,大众数据实验室的研究团队将继续发展无人驾驶技术和机器人学,主要研究方向包括机器学习技术,即引导机器人和传感器加强识别能力,以对行驶中遇到的物体和不同情形作出辨识,换言之,团队希望提高汽车摄像头的检测能力,减少无人驾驶汽车因拍摄盲区等而存在的安全隐患。 另
随着人工智能和机器学习技术在互联网的各个领域的广泛应用,其受攻击的可能性,以及其是否具备强抗打击能力一直是安全界一直关注的。之前关于机器学习模型攻击的探讨常常局限于对训练数据的污染。由于其模型经常趋向于封闭式的部署,该手段在真实的情况中并不实际可行。在GeekPwn2016硅谷分会场上,来自北美工业界和学术界的顶尖安全专家们针对当前流行的图形对象识别、语音识别的场景,为大家揭示了如何通过构造对抗性攻击数据,要么让其与源数据的差别细微到人类无法通过感官辨识到,要么该差别对人类感知没有本质变化,而机器学习模型可
细粒度图像识别 [1] 是视觉感知学习的重要研究课题,在智能新经济和工业互联网等方面具有巨大应用价值,且在诸多现实场景已有广泛应用…… 鉴于当前领域内尚缺乏该方面的深度学习开源工具库,南京理工大学魏秀参教授团队用时近一年时间,开发、打磨、完成了 Hawkeye——细粒度图像识别深度学习开源工具库,供相关领域研究人员和工程师参考使用。本文是对 Hawkeye 的详细介绍。
“在未来30年, 人工智能将取代目前世界上50%的工作。” ——莱斯大学 计算机科学教授 Moshe Vardi 不管未来怎么样,我觉得提高设计师的效率是眼前最容易做到的事情。 设计师打交道最多是图像
---- 新智元报道 来源:aiweirdness、gizmodo 编译:肖琴 【新智元导读】神经网络的专长之一是图像识别。谷歌、微软、IBM、Facebook等科技巨头都有自己的照片标签算法。但即使是顶尖的图像识别算法,也会犯非常奇怪的错误,它只看到它希望看到的东西。同样,即使是非常聪明的人类,也会被算法“愚弄”。 今天,只要你生活在互联网的世界,你就可能与神经网络交互。神经网络是一种机器学习算法,从语言翻译到金融建模等各种应用,神经网络都可以发挥作用。它的专长之一是图像识别。谷歌、微软、I
该系列文章是讲解Python OpenCV图像处理知识,前期主要讲解图像入门、OpenCV基础用法,中期讲解图像处理的各种算法,包括图像锐化算子、图像增强技术、图像分割等,后期结合深度学习研究图像识别、图像分类应用。希望文章对您有所帮助,如果有不足之处,还请海涵~
(接上篇) 吸引之处 那么到底什么是图像识别呢?世界上的大多数事物有自己的名称,图像识别的功能就是告诉人们这些图像上显示的是哪些事物。换句话来说,根据图像辨别出图像中出现的事物。 我们无法从椅子的内在去描述它, 能做的就是给出很多个不同椅子的样子,然后说:长得像这样的,我们就称为椅子。所以实际上,我们是通过将看到的事物与椅子的外观进行对比,如果两者很像,我们就认为这个事物叫椅子,如果不像,那它就不是椅子。 现在有很多系统采用这种吸引子Attractors。想像这样一个场景,在群山周围,一滴雨有可
基于忆阻器的神经形态计算系统为神经网络训练提供了一种快速节能的方法。但是,最重要的图像识别模型之一——卷积神经网络还没有利用忆阻器交叉阵列的完全硬件实现。此外,由于硬件实现收益小、变化大,设备特性不完善,其结果很难媲美软件实现。
导语 | GAME AI SDK 是腾讯 TuringLab 研发的首个开源项目,着重解决自动化测试工具中的通用性问题,最初主要用于游戏 AI 自动化测试服务,现在可用于手机 APP、PC 端游戏、软件等专项自动化测试。通过 AI 算法进行大数据训练的网络模型具有良好的通用性,可以直接在同一类游戏(软件)中适用。文章作者:周大军,腾讯 AI 工程组专家工程师。
李林 编译整理 量子位 出品 | 公众号 QbitAI 2015年,黑人兄弟Jacky Alciné震惊地发现,他们被Google图像识别算法歧视了:Google Photos竟然把他的黑人朋友分类成
来源:PaperWeekly 本文约1800字,建议阅读5分钟 本篇文章介绍一下我们于 ECCV-2022 发表的一篇模型自蒸馏文章。 传统的知识蒸馏(Knowledge Distillation,KD)需要一个预训练的教师模型来训练一个学生模型,这种模式的缺点是需要设计并训练额外的教师网络,并且两阶段的训练过程提升了流水线开销。自网络知识蒸馏(Self-Knowledge Distillation,Self-KD),顾名思义,则是不依赖额外的教师网络进行指导,利用网络自身的知识来指导自身的学习,从而实现自
提高交通安全、改善医疗服务、提升环境效益——专家认为大数据技术在高级图像分析和图像识别领域潜力无限。 挪威卑尔根Uni Research公司的科学家Eirik Thorsnes表示:“计算机的高级图像
说起人工智能,孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来,在 ImageNet 数据集的训练下,人工智能对于图像识别的准确度整整提高了 10 倍,甚至超越了人类视觉本身。
在一篇 CVPR 2023 论文中,来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE,同时在图像识别和生成两大任务上实现了 SOTA。
最近在做一件比较 evil 的事情——验证码识别,以此来学习一些新的技能。因为我是初学,对图像处理方面就不太了解了,欲要利吾事,必先利吾器,既然只是做一下实验,那用 Python 来作原型开发再好不过了。在 Python 中,比较常用的图像处理库是 PIL(Python Image Library),当前版本是 1.1.6 ,用起来非常方便。大家可以在 http://www.pythonware.com/products/pil/index.htm 下载和学习。
1. 图像识别与定位 图像的相关任务可以分成以下两大类和四小类: 图像识别,图像识别+定位,物体检测,图像分割。 图像的定位就是指在这个图片中不但识别出有只猫,还把猫在图片中的位置给精确地抠出来
在道路上放置一些简单的贴纸就能欺骗特斯拉Model S进入反向车道?游戏手柄就能操控车辆行驶?图像干扰能自动启动雨刷?
作者:Xiu-Shen Wei等 机器之心编译 参与:Pedro、路 近日,来自南京大学、旷视和阿德莱德大学的研究者在 arXiv 上发布论文,提出一种利用少量样本学习新类别细粒度分类器的新方法 FSFG 模型,该方法包含两个模块:双线性特征学习模块和分类器映射模块。后者中的「分段映射」功能是该模型的关键部分,它通过一种参数更少的方式学习一组相对易实现的子分类器,进而生成决策边界。 细粒度图像识别是一个重要的计算机视觉问题。得益于复杂深层网络结构的应用,该问题解决方案的表现也越来越好。训练这种分类算法所需
为了增强CLIP在图像理解和编辑方面的能力,上海交通大学、复旦大学、香港中文大学、上海人工智能实验室、澳门大学以及MThreads Inc.等知名机构共同合作推出了Alpha-CLIP。这一创新性的突破旨在克服CLIP的局限性,通过赋予其识别特定区域(由点、笔画或掩码定义)的能力。Alpha-CLIP不仅保留了CLIP的视觉识别能力,而且实现了对图像内容强调的精确控制,使其在各种下游任务中表现出色。
上一周,ICML 2016在纽约画上了完美的句号。这个会议(International Conference on Machine Learning)已经逐渐发展为了由国际机器学习学会(IMLS)主办的世界最顶级的机器学习领域会议之一。来自世界各地的机器学习领域的专家们都以论文投稿的方式向大会递交了自己最新的研究成果,其中包括一篇来自百度硅谷实验室的语音识别的论文。 大会主要采用演讲和PPT展示的形式,辅以一定程度上的交流讨论会来进行。整个会议议程已经于24日全部结束,最终评出了三篇最佳论文奖和一篇最具时间
最近,图像识别领域发布了白皮书,简单翻译一下做个总结。 ---- 目录 [1] Introduction 1.1 Exponential Growth of Image and Video 1.2 Statistics [2] Image Recognition [3] Recent Innovations 3.1 Approaches 3.2 Deep Neural Networks [4] Applications 4.1. Inform
机器之心专栏 机器之心编辑部 华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务,ViG 在相似计算量情况下 Top-1 正确率达 82.1%,高于 ResNet 和 Swin Transformer。 论文链接:https://arxiv.org/abs/2206.00272 PyTorch 代码:https://github.com
引言:深度学习是近年机器学习领域的重大突破,有着广泛的应用前景。随着Google公开Google Brain计划,业界对深度学习的热情高涨。腾讯在深度学习领域持续投入,获得了实际落地的产出。我们准备了四篇文章,阐述深度学习的原理和在腾讯的实践,介绍腾讯深度学习平台Mariana,本文为第一篇。 深度学习(Deep Learning)是近年来机器学习领域的热点,在语音识别、图像识别等领域均取得了突破性进展。腾讯提供广泛的互联网服务,在2014年第一季度,即拥有3.96亿月活跃用户的微信,8.48亿月活跃用户的
传统 RGB 图像以栅格(raster)形式储存,像素点的分布在整个图像上均匀统一。然而,这种均匀分布往往与图像实际内容的密度分布相去甚远。尤其是在现今常用的深度网络中,在编码部分经过频繁的下采样(downsampling)后,小物体占据的点极少,而大物体占据的点很多。如下图中,背景中繁忙的人群只剩下极少量的点表示,而画面下方大量的点被信息量极低的地面占用。如果从存储的特征个数和算力的角度来考虑这个图像识别的过程,那么可以想见地面特征被大量的存储,大部分的算力被用来计算这些地面。而真正关键的人群,由于点少,分到的特征就少,用于计算的算力也就很少。
近期开源的CV项目真不少,所以CVer的论文项目开源速递系列决定改成周更模式。不过当然前提是累计到3篇 Amusi觉得值得推荐的情况。
利用计算机图像识别、地址库、合卷积神经网提升手写运单机器有效识别率和准确率,大幅度地减少人工输单的工作量和差错可能。
对于大多数图像识别模型来说,批处理归一化(batch normalization)是非常重要的组成部分。
Transformer由于其强大的建模能力,目前在计算机视觉领域占据了重要的地位。在这项工作中,作者探究了Transformer的自注意(Self-Attention)模块是否是其实现图像识别SOTA性能的关键 。为此,作者基于现有的基于MLP的视觉模型,建立了一个无注意力网络sMLPNet。
AI 科技评论按:上周我们报道了谷歌的一项研究 “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头 - AI科技评论,它直观地体现了更多训练数据可以带来更好的结果,但连线(WIRED)的这篇文章
近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利举行。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办,南昌市科学技术局、中国工程科技发展战略江西研究院承办。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域,汇集了来自中国工程院、国际欧亚科学院、国际核能院等多个学术机构的院士进行主题报告演讲、专题论坛研讨。近200位人工智能领域专家学者同场交流分享,吸引了线上线下超千万人次观会。
近日,谷歌大脑的创始成员和 AutoML 的缔造者之一Quoc Le再推新研究论文,在题为“对抗性样本改善图像识别”一文中提出一种增强的对抗训练将对抗性样本AdvProp。
【新智元导读】李飞飞加入谷歌是最近 AI 界的一件大事,反映了谷歌、微软、亚马逊、Facebook 等科技巨头正在积极重塑自己在人工智能领域的策略。这些公司不仅在内部推广 AI 技术,把 AI 应用于它们现有的产品,同时也致力于将这些技术推广到其他技术领域。本文梳理了这些大公司的最新动向和策略,无可置疑的是,他们都是认真的,AI 将在我们的未来发挥越来越大的作用。 李飞飞加入谷歌是最近 AI 界的一件大事。作为斯坦福大学人工智能和视觉实验室主任,李飞飞创建了全球最大的图像识别数据库 ImageNet,加速了
然而,相较更加普遍的人脸识别技术来说,商品识别在实际的产业应用中也面临着其独有的巨大挑战:
领取专属 10元无门槛券
手把手带您无忧上云