首页
学习
活动
专区
工具
TVP
发布

量子位

专栏作者
8590
文章
4900604
阅读量
138
订阅数
OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级
据The information爆料称,OpenAI即将推出多模态模型GPT-vision。
量子位
2023-09-22
3180
谷歌版ChatGPT支持中文了!弱智吧实测结果在此
对于「支持中文」的大模型,不请出我们的弱智吧神题,就显得有些不尊重对手了【狗头】。
量子位
2023-08-05
1650
谷歌AI发布“会动的”3D物体数据集,附带标记边界框、相机位姿、稀疏点云,网友:快给我的AR模型用上
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见过3D物体数据集,见过会动的3D物体数据集吗? 每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云。 这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲、十个国家里收集来的400多万张带注释的图像。 谷歌认为,3D目标理解领域,缺少像2D中的ImageNet这样的大型数据集,而Objectron数据集能在一定程度上解决这个问题。 数据集一经推出,1.6k网友点赞。
量子位
2023-03-10
4970
实战解析:真实AI场景下,极小目标检测与精度提升 | 百度AI公开课
主讲人 | 哈利 百度高级研发工程师 量子位整理编辑 | 公众号 QbitAI 目前,各个企业行业在AI落地应用中,常常会遇到极小目标检测问题。在这些AI应用中,都需要在一个大图中精准识别出极小目标,其检测至关重要,也面临很多难点。 比如,检测框高宽比不固定,图片背景杂乱,数据源稀缺,检测框相比图片非常小,这些难点都会导致较高的漏检率。 10月21日,「EasyDL AI开发系列公开课」第一期直播中,百度高级工程师以真实的产业场景为例,深入解析了如何解决这些难点、有效提高极小目标检测的准确率,并手把手演示了
量子位
2023-03-10
3340
内存256KB设备也能人脸检测,微软提出用RNN代替CNN | NeurIPS 2020
蕾师师 发自 凹非寺 量子位 报道 | 公众号 QbitAI 为了让更多IoT设备用上AI,在条件“简陋”的单片机上跑图像识别模型也成为一种需求。 但是图像识别对内存有较高的要求,一般搭载MCU的设备内存都不高,怎样才能解决这个问题呢? 最近,微软提出了一种RNNPool方法,甚至可在内存只有256 KB的STM32开发板上运行人脸检测模型。 这篇论文也发表在近期举行的顶会NeurIPS 2020上,相关代码已经开源。 CNN难以适应单片机低内存 目前,计算机视觉领域的主要架构都是基于CNN,但是CNN对
量子位
2023-03-10
3410
如何快速成为图像识别大神?英伟达专家带你低门槛、高效实现AI模型训练与部署 | 英伟达CV公开课
位来 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 图像识别技术是人工智能研究的一个重要分支,也是人们日常生活、工作中应用最广泛的AI技术之一。如车辆识别、人脸识别、体态识别等技术,广泛应用于智慧城市、交通、零售、文娱等领域。 图像识别也是机器人、无人驾驶等技术的重要基础,未来将具有更加广泛的应用领域。 但对于大部分AI开发者来说,图像识别从算法研究、模型训练到规模化的提供服务,所需卷入的资源和处理的流程非常之多。并且如何保证数据质量、提高推理速度、提升识别精度等都面临很多挑战。 那么,开发者如何才
量子位
2023-03-10
3520
你算个什么鸟?AI十级“找茬”选手诞生
杨净 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你算个什么鸟? 面对上面这两张图,一个AI发出了灵魂拷问。 左边桃面牡丹鹦鹉,右边费氏牡丹鹦鹉。 一眼识破的它早就看到左边的鸟的喙部和眼圈与右边的不一样。 不行,再来!再来看这组。(文末揭晓答案) 好,我放弃了。 这个来自浙大计算机学院和阿里安全的“找茬”选手,识别准确率达到了91.3%,已经是业内最优水平。研究成果已被多媒体国际顶会ACM MM 2021收录。 不光鸟,阿猫阿狗也能行,甚至花草植物也能行。 看看这连两张照片,吉娃
量子位
2023-03-10
2750
冬奥会测试赛,助理裁判竟然是个AI!
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI当裁判的时代,终于还是到来了。 还不是什么随随便便的赛事,正是北京冬奥会测试赛! 这个“裁判”是谁? 直接来亮个相: 小冰AI竞技体育国际赛事评分系统。 但毕竟在竞技体育这件事上,差之毫厘,便是失之千里。 小冰,又是哪里来的底气? 与人类专业裁判结果一致 或许你会问了,难道在以前的国际赛事上,就没用过AI技术? 有,确实有。 例如在2019年的体操世锦赛上,3D感应技术就充当了人类裁判“小助手”的角色。 但不得不强调的是,这些AI技术仅仅是帮
量子位
2023-03-10
2160
助力AI创新众智生态,全球首个十亿像素级CV挑战赛GigaVision圆满落幕
允中 发自 凹非寺 量子位 | 公众号 QbitAI 围绕十亿像素级计算机视觉技术的2022 GigaVision 挑战赛,在经历四个月的激烈角逐后,于近日落下帷幕。 2022 GigaVision挑战赛开放百万元奖金池,面向全球高等院校、研究机构、高新企业及个人爱好者征集原创算法。 不同于其它视觉算法挑战赛,GigaVision挑战赛是全球首个针对大场景、多对象及复杂关系问题的智能算法比赛,是新一代人工智能算法的试金石。 依托自研的亿像素光场成像设备,大赛构建了具有宽视场、高分辨率的GigaVision
量子位
2023-02-28
2410
中国最后600只河狸,有AI守护
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 中国新疆,有一群特殊的“水利工程师”。 它们圆圆滚滚只吃素,热爱建堤坝,呆萌可爱。曾因“认真搓澡”视频外传登上热搜。 嗯,这就是“大胖耗子”——河狸。 它们最为人熟知的习性是修水坝,号称“动物界工程师”。 这主要是为了给自己建立保护地,河狸的胆子非常小、几乎没有自卫能力,遇到危险后往往只能一个猛子扎到水里躲藏。 另一方面,河狸修筑水坝后形成的池塘,能够自然发展成为一个物种丰富的生态环境,如麝鼠、鱼、水鸟、狐狸等生物都能够围绕这个池塘安家生存繁衍后代。
量子位
2023-02-23
3270
AI理解不了“他她它”咋办?动词成为新突破口,机器人听到抹黄油就知道拿刀叉 | 清华AIR&北大&英特尔
但要是换成只有代词(他/她/它/这/那/东西…)和动词的模糊指令,AI就一头雾水了:
量子位
2022-12-09
2070
小哥自创AI防拖延系统,一玩手机就被“闪瞎” | Reddit高热
Alex 发自 凹非寺 量子位 | 公众号 QbitAI 你有过被Deadline支配的恐惧吗? 为了克服拖延症,一位小哥对自己“下了狠手”。 他编写出一套使用物体检测API的算法,来监督自己专注学习。 一旦他开始玩手机,惩罚系统就会启动—— 面前的两个手电筒将“亮瞎”他的双眼。 同时,音响还会发出刺耳的声音,迫使他回到当前任务中。 小哥把这个自创防拖延系统分享到了YouTube和Reddit,结果在Reddit上爆火,目前已有3.3k热度。 不少网友惊呼:Amazing! 有位“拖延症晚期患者”表示
量子位
2022-07-27
2390
YOLOv7速度精度超越其他变体,大神AB发推,网友:还得是你!|开源
Pine 发自 凹非寺 量子位 | 公众号 QbitAI 前脚美团刚发布YOLOv6, YOLO官方团队又放出新版本。 曾参与YOLO项目维护的大神Alexey Bochkovskiy在推特上声称: 官方版YOLOv7比以下版本的精度和速度都要好。 在论文中,团队详细对比了YOLOv7和其他变体的性能对比,并介绍v7版本的新变化。 话不多说,YOLOv7有多强一起来看实验结果。 速度、精度都超越其他变体 论文中,实验以之前版本的YOLO和最先进的目标检测模型作为基准。 表格是YOLOv7模型在相同的参数
量子位
2022-07-12
6610
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
写在前面 视觉语言预训练提高了许多下游视觉语言任务的性能,例如:图文检索、基于图片的问答或推理。有朋友要问了,除了在公开的学术任务上使用更大的模型/更多的数据/技巧把指标刷得很高,多模态预训练模型有什么实际应用呢? 为此,字节跳动 AI Lab Research 团队提出了X-VLM,首次提出学习多粒度的视觉和语言对齐。实验证明,这种预训练方法十分高效,模型规模无需很大,预训练数据无需很多, 仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现,例如:图像文本检索、基于图片的问答或推
量子位
2022-06-20
5570
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 微软的Swin Transformer去年横空出世,一举突破了Transformer做视觉任务复杂度过高的问题。 这种把Transformer“卷积网络”化的做法,也成为当前ViT研究领域的热门方向。 但现在,何恺明团队的最新论文提出了不同的观点: 在目标检测任务上,像Swin Transformer那样的复杂操作可能是没有必要的。 只用普通ViT做骨干网络,一样能在目标检测任务上拿下高分。 不对ViT引入分层设计 ViT可以说是打开了Transfor
量子位
2022-04-01
3040
“跨次元”目标检测模型hold住各种画风,真人赛博恐龙梵高画作都能识别,复旦校友一作,在线Demo可玩
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 目标检测种类多达20000+种的AI,你见过吗? 不仅准确“揪出”每个物体所在的位置,分类效果非常准确: 插画版赛博恐龙也没问题: 甚至还能检测杂志封面甚至漫画中的物体! 这也是把目标检测给玩出花来了,据作者表示模型在长尾问题等细节上的处理非常好,像狮子和狐狸这种少样本也能准确识别: 这项研究来自Meta AI和德克萨斯大学奥斯汀分校,一作是著名目标检测框架CenterNet的作者、复旦校友Xingyi Zhou。 一起来看看。 可识别“跨次元
量子位
2022-03-04
4960
ICLR 2022:AI如何识别“没见过的东西”?
行早 发自 凹非寺 量子位 | 公众号 QbitAI 这回域外物体检测方向出了一个新模型VOS,合作团队来自威斯康星大学麦迪逊分校,论文已收录到ICLR 2022中。 这一模型在目标检测和图像分类上均达到目前最佳性能,FPR95指标比之前最好的效果还降低了7.87%之多。 要知道深度网络对未知情况的处理一直是个难题。 例如在自动驾驶中,识别已知物体(例如汽车、停车标志)的检测模型经常“指鹿为马”,对域外物体(OOD)会产生高置信度的预测。 就像下图中的一头驼鹿,在Faster-RCNN模型下被识别成了行人,
量子位
2022-03-04
4550
又一AI大牛回国任教!沈春华加盟浙江大学,曾获澳大利亚科研终身成就奖
这些年来,沈春华教授带领团队做出过RefineNet、FCOS等著名的AI算法,目前在Google Scholar上的引用次数达到了3.3w+,H指数达到92。
量子位
2021-12-22
5000
用安卓手机解锁目标检测模型YOLOv5,识别速度不过几十毫秒!
YOLOv5于2020年5月发布,最大的特点就是模型小,速度快,所以能很好的应用在移动端。
量子位
2021-12-09
1.7K0
语言模型“不务正业”做起目标检测,性能还比DETR、Faster R-CNN更好 | Hinton团队研究
就算是引入了Transformer的DETR,也是结合CNN来预测最终的检测结果的。
量子位
2021-09-30
3620
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档