腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

量子位

专栏作者

8590

文章

4900604

阅读量

138

订阅数

OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

图像识别安全 gpt openai 模型

据The information爆料称，OpenAI即将推出多模态模型GPT-vision。

2023-09-22

3180

谷歌版ChatGPT支持中文了！弱智吧实测结果在此

图像识别 chatgpt 工具论文数学

对于「支持中文」的大模型，不请出我们的弱智吧神题，就显得有些不尊重对手了【狗头】。

2023-08-05

1650

谷歌AI发布“会动的”3D物体数据集，附带标记边界框、相机位姿、稀疏点云，网友：快给我的AR模型用上

图像识别 https 网络安全编程算法

萧箫发自凹非寺量子位报道 | 公众号 QbitAI 见过3D物体数据集，见过会动的3D物体数据集吗？每段动态视频都以目标为中心拍摄，不仅自带标注整体的边界框，每个视频还附带相机位姿和稀疏点云。这是谷歌的开源3D物体数据集Objectron，包含15000份短视频样本，以及从五个大洲、十个国家里收集来的400多万张带注释的图像。谷歌认为，3D目标理解领域，缺少像2D中的ImageNet这样的大型数据集，而Objectron数据集能在一定程度上解决这个问题。数据集一经推出，1.6k网友点赞。

2023-03-10

4970

实战解析：真实AI场景下，极小目标检测与精度提升 | 百度AI公开课

编程算法深度学习图像识别云直播

主讲人 | 哈利百度高级研发工程师量子位整理编辑 | 公众号 QbitAI 目前，各个企业行业在AI落地应用中，常常会遇到极小目标检测问题。在这些AI应用中，都需要在一个大图中精准识别出极小目标，其检测至关重要，也面临很多难点。比如，检测框高宽比不固定，图片背景杂乱，数据源稀缺，检测框相比图片非常小，这些难点都会导致较高的漏检率。 10月21日，「EasyDL AI开发系列公开课」第一期直播中，百度高级工程师以真实的产业场景为例，深入解析了如何解决这些难点、有效提高极小目标检测的准确率，并手把手演示了

2023-03-10

3340

内存256KB设备也能人脸检测，微软提出用RNN代替CNN | NeurIPS 2020

图像识别机器学习神经网络深度学习人工智能

蕾师师发自凹非寺量子位报道 | 公众号 QbitAI 为了让更多IoT设备用上AI，在条件“简陋”的单片机上跑图像识别模型也成为一种需求。但是图像识别对内存有较高的要求，一般搭载MCU的设备内存都不高，怎样才能解决这个问题呢？最近，微软提出了一种RNNPool方法，甚至可在内存只有256 KB的STM32开发板上运行人脸检测模型。这篇论文也发表在近期举行的顶会NeurIPS 2020上，相关代码已经开源。 CNN难以适应单片机低内存目前，计算机视觉领域的主要架构都是基于CNN，但是CNN对

2023-03-10

3410

如何快速成为图像识别大神？英伟达专家带你低门槛、高效实现AI模型训练与部署 | 英伟达CV公开课

人工智能神经网络深度学习图像识别手势识别

位来发自凹非寺量子位编辑 | 公众号 QbitAI 图像识别技术是人工智能研究的一个重要分支，也是人们日常生活、工作中应用最广泛的AI技术之一。如车辆识别、人脸识别、体态识别等技术，广泛应用于智慧城市、交通、零售、文娱等领域。图像识别也是机器人、无人驾驶等技术的重要基础，未来将具有更加广泛的应用领域。但对于大部分AI开发者来说，图像识别从算法研究、模型训练到规模化的提供服务，所需卷入的资源和处理的流程非常之多。并且如何保证数据质量、提高推理速度、提升识别精度等都面临很多挑战。那么，开发者如何才

2023-03-10

3520

你算个什么鸟？AI十级“找茬”选手诞生

css 图像识别机器学习神经网络深度学习

杨净丰色发自凹非寺量子位报道 | 公众号 QbitAI 你算个什么鸟？面对上面这两张图，一个AI发出了灵魂拷问。左边桃面牡丹鹦鹉，右边费氏牡丹鹦鹉。一眼识破的它早就看到左边的鸟的喙部和眼圈与右边的不一样。不行，再来！再来看这组。（文末揭晓答案）好，我放弃了。这个来自浙大计算机学院和阿里安全的“找茬”选手，识别准确率达到了91.3%，已经是业内最优水平。研究成果已被多媒体国际顶会ACM MM 2021收录。不光鸟，阿猫阿狗也能行，甚至花草植物也能行。看看这连两张照片，吉娃

2023-03-10

2750

冬奥会测试赛，助理裁判竟然是个AI！

金磊发自凹非寺量子位报道 | 公众号 QbitAI AI当裁判的时代，终于还是到来了。还不是什么随随便便的赛事，正是北京冬奥会测试赛！这个“裁判”是谁？直接来亮个相：小冰AI竞技体育国际赛事评分系统。但毕竟在竞技体育这件事上，差之毫厘，便是失之千里。小冰，又是哪里来的底气？与人类专业裁判结果一致或许你会问了，难道在以前的国际赛事上，就没用过AI技术？有，确实有。例如在2019年的体操世锦赛上，3D感应技术就充当了人类裁判“小助手”的角色。但不得不强调的是，这些AI技术仅仅是帮

2023-03-10

2160

助力AI创新众智生态，全球首个十亿像素级CV挑战赛GigaVision圆满落幕

编程算法图像识别人工智能神经网络深度学习

允中发自凹非寺量子位 | 公众号 QbitAI 围绕十亿像素级计算机视觉技术的2022 GigaVision 挑战赛，在经历四个月的激烈角逐后，于近日落下帷幕。 2022 GigaVision挑战赛开放百万元奖金池，面向全球高等院校、研究机构、高新企业及个人爱好者征集原创算法。不同于其它视觉算法挑战赛，GigaVision挑战赛是全球首个针对大场景、多对象及复杂关系问题的智能算法比赛，是新一代人工智能算法的试金石。依托自研的亿像素光场成像设备，大赛构建了具有宽视场、高分辨率的GigaVision

2023-02-28

2410

中国最后600只河狸，有AI守护

小程序微信图像识别编程算法

明敏发自凹非寺量子位 | 公众号 QbitAI 中国新疆，有一群特殊的“水利工程师”。它们圆圆滚滚只吃素，热爱建堤坝，呆萌可爱。曾因“认真搓澡”视频外传登上热搜。嗯，这就是“大胖耗子”——河狸。它们最为人熟知的习性是修水坝，号称“动物界工程师”。这主要是为了给自己建立保护地，河狸的胆子非常小、几乎没有自卫能力，遇到危险后往往只能一个猛子扎到水里躲藏。另一方面，河狸修筑水坝后形成的池塘，能够自然发展成为一个物种丰富的生态环境，如麝鼠、鱼、水鸟、狐狸等生物都能够围绕这个池塘安家生存繁衍后代。

2023-02-23

3270

AI理解不了“他她它”咋办？动词成为新突破口，机器人听到抹黄油就知道拿刀叉 | 清华AIR&北大&英特尔

机器人图像识别图像处理

但要是换成只有代词（他/她/它/这/那/东西…）和动词的模糊指令，AI就一头雾水了：

2022-12-09

2070

小哥自创AI防拖延系统，一玩手机就被“闪瞎” | Reddit高热

api https 网络安全图像识别数据库

Alex 发自凹非寺量子位 | 公众号 QbitAI 你有过被Deadline支配的恐惧吗？为了克服拖延症，一位小哥对自己“下了狠手”。他编写出一套使用物体检测API的算法，来监督自己专注学习。一旦他开始玩手机，惩罚系统就会启动—— 面前的两个手电筒将“亮瞎”他的双眼。同时，音响还会发出刺耳的声音，迫使他回到当前任务中。小哥把这个自创防拖延系统分享到了YouTube和Reddit，结果在Reddit上爆火，目前已有3.3k热度。不少网友惊呼：Amazing！有位“拖延症晚期患者”表示

2022-07-27

2390

YOLOv7速度精度超越其他变体，大神AB发推，网友：还得是你！|开源

https 图像识别神经网络深度学习人工智能

Pine 发自凹非寺量子位 | 公众号 QbitAI 前脚美团刚发布YOLOv6， YOLO官方团队又放出新版本。曾参与YOLO项目维护的大神Alexey Bochkovskiy在推特上声称：官方版YOLOv7比以下版本的精度和速度都要好。在论文中，团队详细对比了YOLOv7和其他变体的性能对比，并介绍v7版本的新变化。话不多说，YOLOv7有多强一起来看实验结果。速度、精度都超越其他变体论文中，实验以之前版本的YOLO和最先进的目标检测模型作为基准。表格是YOLOv7模型在相同的参数

2022-07-12

6610

ICML 2022 | 字节跳动 AI Lab 提出多模态模型：X-VLM，学习视觉和语言的多粒度对齐

写在前面视觉语言预训练提高了许多下游视觉语言任务的性能，例如：图文检索、基于图片的问答或推理。有朋友要问了，除了在公开的学术任务上使用更大的模型/更多的数据/技巧把指标刷得很高，多模态预训练模型有什么实际应用呢？为此，字节跳动 AI Lab Research 团队提出了X-VLM，首次提出学习多粒度的视觉和语言对齐。实验证明，这种预训练方法十分高效，模型规模无需很大，预训练数据无需很多，仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现，例如：图像文本检索、基于图片的问答或推

2022-06-20

5570

何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

图像识别神经网络深度学习人工智能

鱼羊发自凹非寺量子位 | 公众号 QbitAI 微软的Swin Transformer去年横空出世，一举突破了Transformer做视觉任务复杂度过高的问题。这种把Transformer“卷积网络”化的做法，也成为当前ViT研究领域的热门方向。但现在，何恺明团队的最新论文提出了不同的观点：在目标检测任务上，像Swin Transformer那样的复杂操作可能是没有必要的。只用普通ViT做骨干网络，一样能在目标检测任务上拿下高分。不对ViT引入分层设计 ViT可以说是打开了Transfor

2022-04-01

3040

“跨次元”目标检测模型hold住各种画风，真人赛博恐龙梵高画作都能识别，复旦校友一作，在线Demo可玩

https 网络安全图像识别 html

萧箫发自凹非寺量子位 | 公众号 QbitAI 目标检测种类多达20000+种的AI，你见过吗？不仅准确“揪出”每个物体所在的位置，分类效果非常准确：插画版赛博恐龙也没问题：甚至还能检测杂志封面甚至漫画中的物体！这也是把目标检测给玩出花来了，据作者表示模型在长尾问题等细节上的处理非常好，像狮子和狐狸这种少样本也能准确识别：这项研究来自Meta AI和德克萨斯大学奥斯汀分校，一作是著名目标检测框架CenterNet的作者、复旦校友Xingyi Zhou。一起来看看。可识别“跨次元

2022-03-04

4960

ICLR 2022：AI如何识别“没见过的东西”？

https 网络安全图像识别自动驾驶无人驾驶

行早发自凹非寺量子位 | 公众号 QbitAI 这回域外物体检测方向出了一个新模型VOS，合作团队来自威斯康星大学麦迪逊分校，论文已收录到ICLR 2022中。这一模型在目标检测和图像分类上均达到目前最佳性能，FPR95指标比之前最好的效果还降低了7.87%之多。要知道深度网络对未知情况的处理一直是个难题。例如在自动驾驶中，识别已知物体（例如汽车、停车标志）的检测模型经常“指鹿为马”，对域外物体（OOD）会产生高置信度的预测。就像下图中的一头驼鹿，在Faster-RCNN模型下被识别成了行人，

2022-03-04

4550

又一AI大牛回国任教！沈春华加盟浙江大学，曾获澳大利亚科研终身成就奖

图像识别 https 网络安全编程算法图像处理

这些年来，沈春华教授带领团队做出过RefineNet、FCOS等著名的AI算法，目前在Google Scholar上的引用次数达到了3.3w+，H指数达到92。

2021-12-22

5000

用安卓手机解锁目标检测模型YOLOv5，识别速度不过几十毫秒！

深度学习神经网络人工智能图像识别容器

YOLOv5于2020年5月发布，最大的特点就是模型小，速度快，所以能很好的应用在移动端。

2021-12-09

1.7K0

语言模型“不务正业”做起目标检测，性能还比DETR、Faster R-CNN更好 | Hinton团队研究

神经网络机器学习深度学习人工智能图像识别

就算是引入了Transformer的DETR，也是结合CNN来预测最终的检测结果的。

2021-09-30

3620

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态