首页
学习
活动
专区
工具
TVP
发布

贾志刚-OpenCV学堂

三本书《Java数字图像处理-编程技巧与应用实践》、《OpenCV Android开发实战》、《OpenCV4应用开发-入门、进阶与工程化实践》作者。OpenCV实验大师平台 软件作者
专栏作者
860
文章
1423143
阅读量
422
订阅数
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】给一个文本提示就能生成3D模型! 自从文本引导的图像生成模型火了以后,画家群体迅速扩张,不会用画笔的人也能发挥想象力进行艺术创作。 但目前的模型,如DALL-E 2, Imagen等仍然停留在二维创作(即图片),无法生成360度无死角的3D模型。 想要直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但三维合成并不存在如此大规模的标注数据,也没有一个高效的模型
OpenCV学堂
2022-10-10
7370
这个深度学习库能执行10多种图像文本任务,有20多个数据集,还统一接口|已开源
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 支持10余种图像文本任务,囊括20多种数据集,还提供SOTA模型性能和可复现预训练及微调实验配置。 没错,这是一个视觉语言深度学习框架就可以拥有的。 这个库的庐山真面目是:Salesforce亚洲研究院推出的LAVIS。 并且,它还统一了接口,降低开发成本和入门门槛。 最重要的是:已开源! LAVIS全⽅位⽀持视觉语⾔任务、数据集、模型。 如果还不能看不出它的优势,那话不多说,直接看LAVIS与现有多模态库的对比图。 相较之下,现存的视
OpenCV学堂
2022-10-09
4740
ECCV 2022 | 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文提出了 Tip-Adapter,一种可以免于训练的将 CLIP 用于下游 few-shot 图像分类的方案。 论文链接:https://arxiv.org/pdf/2207.09519.pdf 代码链接:https://github.com/gaopengcuhk/Tip-Adapter 一.研究背景 对比性图像语言预训练模型(CLIP)在近期展现出了强大的视觉领域迁移能力,可以在一个全新的下游数据集上进行 zero-shot 图像
OpenCV学堂
2022-09-27
5850
解密!为了攻击西工大,美国国安局竟动用54台跳板机和代理服务器
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】今年4月,西北工业大学的信息系统发现遭受网络攻击。今天,幕后黑手终于挖出来了,没想到竟是美国国家安全局。 今天,国家计算机病毒应急处理中心和360公司分别发布了关于西北工业大学遭受境外网络攻击的调查报告。 调查发现,美国国家安全局(NSA)下属的特定入侵行动办公室(TAO)多年来对我国国内的网络目标实施了上万次的恶意网络攻击,控制了相关网络设备,窃取了超过140GB的高价值数据。 原来不法分子是美国国安局 今年4月,
OpenCV学堂
2022-09-07
3010
超越CLIP的多模态模型,只需不到1%的训练数据!南加大最新研究来了
来源 | 公众号 量子位 火爆全网的AI绘画你玩了吗? 女娲无限版、DALL·E2、Imagen……这些通过文字生成图像的AI绘画工具,背后的原理都是一个叫“CLIP”的模型,它是AI如何“理解”人类语义这一问题的关键。 CLIP(Contrastive Language–Image Pre-training),是一种基于对比的图片-文本学习的跨模态预训练模型,由OpenAI于去年1月发布。 它好用是好用,但一个大问题是数据需求太大:4亿个图像文本对、256个GPU,这对许多公司和个人都很不友好。 对此,
OpenCV学堂
2022-08-29
1.4K0
听声辨物,这是AI视觉该干的???|ECCV 2022
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。 能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢? 来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)。 视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。 相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBenc
OpenCV学堂
2022-08-29
2990
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 来自罗彻斯特大学和 Adobe Research 的研究者提出了一种新的生成网络 CM-GAN,很好地合成了整体结构和局部细节,在定量和定性评估方面都显著优于现有 SOTA 方法,如 CoModGAN 和 LaMa。 图像修复是指对图像缺失区域进行补全,是计算机视觉的基本任务之一。该方向有许多实际应用,例如物体移除、图像重定向、图像合成等。 早期的修复方法基于图像块合成或颜色扩散来填充图像缺失部分。为了完成更复杂的图像结构,研究人员开始转
OpenCV学堂
2022-08-29
5070
何恺明MAE局限性被打破,与Swin Transformer结合,训练速度大大提升 | 东大&商汤&悉大
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位  授权 自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。 但与此同时, 研究人员也不得不思考它的局限性。 MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。 于是,一场整合的范式就此在研究团队中上演。 代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin
OpenCV学堂
2022-05-31
5290
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心  授权 OpenAI:DALL・E 2 就是最好的。谷歌:看下我们 Imagen 生成的柴犬? 多模态学习近来受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在,来自谷歌的研究者也在这一方向做出了探索,提出了一种文本到图像的扩散模型 Imagen。 Imagen 结合了 Transfor
OpenCV学堂
2022-05-25
5260
Github开发大神教你玩转数据库编程
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】每个人的心目中都有自己最喜欢的编程问题。这次,我们先跟着这位大佬去数据库的世界里溜一圈看看。 在Github上,一位名叫Arthur O’Dwyer的用户,经常发表关于C++编程语言方面的东西。 最近,他分享了一次发生在2013年的软件工程面试经历。 如今,9年时间已过,他却对此记忆犹新。 Dwyer表示,这道题可以说是大多数真实世界编程的一个缩影。 就比如说,当你维护一个庞大的代码库时,总会有一些你不完全理解的代码路
OpenCV学堂
2022-05-05
2580
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】大艺术家重磅升级!最近OpenAI发布升级版DALL·E 2,不仅分辨率提升了4倍,准确率更高,业务也更广了:除了生成图像,还能二次创作! 2021年1月,OpenAI放了一个大招:DALL-E模型,让自然语言和图像成功牵手,输入一段不管多离谱的文本,都能生成图片! 比如经典的「牛油果形状的扶手椅」,还有新奇生物「一个长颈鹿乌龟」。 当时看着已经够神奇了吧? 时隔一年,OpenAI结合另一个多模态模型CLIP,发布
OpenCV学堂
2022-04-14
9390
一文掌握原生GAN论文复现方法!
在近20年GAN可以说是深度学习非常火的研发方向。 原因不外乎,GAN的应用落地也已经非常广泛,包括图像生成(超分辨率)、语义分割、文字生成、数据增强、信息检索/排序、聊天机器人等。 还有近期席卷B站的AI视频换脸技术;专门针对二次元图像的Real-CUGAN算法模型。以及腾讯研究出的GFP-GAN模型使用丰富多样的面部先验进行面部修复。 广泛的应用案例,大厂研发团队的加持,GAN成为了更多准研究生的研究方向。 学GAN一定要学的是——原生GAN是Ian Goodfellow 发表的第一篇提出 GAN
OpenCV学堂
2022-04-07
7300
AI靠语意理解把照片变抽象画,无需相应数据集,只画4笔也保留神韵,有毕加索内味儿了
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 只用几笔,如何勾勒一只动物的简笔画,很多人从小都没整明白的问题—— 如今AI也能实现了。 下面图中,左边是三张不同的动物照片,右边是AI仅用线条来描出它们的外形和神态。 从32笔到4笔,即使大量信息都抽象略去了,但我们还是能辨识出对应动物,尤其是最下面的猫猫,只需4笔曲线也能展示出猫的神韵: 再看这匹马,抽象到最后只保留了马头、马鬃和扬蹄飞奔的动作,真有点毕加索那幅公牛那味儿了。 更神奇的是,其背后的模型CLIPasso并没有在速写
OpenCV学堂
2022-03-21
6020
谷歌「模型汤」靠微调屠了ImageNet的榜!方法竟然只有半页纸
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】ImageNet排行榜又双叒叕被刷新啦!不过这回,新霸主谷歌没有提出新模型,只靠微调「几个」模型就做到了第一,论文通篇都是实验分析,这也引起了网友的争议:全靠财大气粗! 最近,谷歌又靠着强大的计算资源豪横了一把,而且还顺手捎上了一位Meta AI的朋友。 不得不说,这两个「冤家」的合作可不多见。 论文链接:https://arxiv.org/abs/2203.05482 研究团队提出了一种称为「模型汤」的概念,通过在
OpenCV学堂
2022-03-21
4680
使用图像分割来做缺陷检测的一个例子
作者:Vinithavn 编译:ronghuaiyang 导读 一个简单的例子,详细的过程和代码说明。 1. 介绍 什么是物体检测? 给定一张图像,我们人类可以识别图像中的物体。例如,我们可以检测
OpenCV学堂
2021-06-08
2.5K0
Max-DeepLab全景分割流水线,分辨率高达51.3%
2015年毕业于上海交通大学计算机工程专业的王会宇(Huiyu Wang),在本科期间就一直边做科研助理,边学习,一直保持是班里的Top 5%呢。
OpenCV学堂
2021-05-07
9160
华为北大等联手打造的Transformer竟在CV领域超过了CNN:多项底层视觉任务达到SOTA
但其实,这个在各种自然语言处理任务中「混迹」,强大的无监督预训练模型,现在已经在「计算机视觉」的道路上越走越远了。
OpenCV学堂
2020-12-08
5990
速度提升一倍,无需实例掩码预测即可实现全景分割
论文链接:https://arxiv.org/pdf/1910.03892.pdf
OpenCV学堂
2019-10-30
6760
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档