腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

贾志刚-OpenCV学堂

三本书《Java数字图像处理-编程技巧与应用实践》、《OpenCV Android开发实战》、《OpenCV4应用开发-入门、进阶与工程化实践》作者。OpenCV实验大师平台软件作者

专栏作者

860

文章

1423143

阅读量

422

订阅数

3D版DALL-E来了！谷歌发布文本3D生成模型DreamFusion，重点是zero-shot

图像处理 tcp/ip

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】给一个文本提示就能生成3D模型！自从文本引导的图像生成模型火了以后，画家群体迅速扩张，不会用画笔的人也能发挥想象力进行艺术创作。但目前的模型，如DALL-E 2, Imagen等仍然停留在二维创作（即图片），无法生成360度无死角的3D模型。想要直接训练一个text-to-3D的模型非常困难，因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对，但三维合成并不存在如此大规模的标注数据，也没有一个高效的模型

2022-10-10

7370

这个深度学习库能执行10多种图像文本任务，有20多个数据集，还统一接口｜已开源

tcp/ip https 网络安全开源深度学习

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号量子位授权支持10余种图像文本任务，囊括20多种数据集，还提供SOTA模型性能和可复现预训练及微调实验配置。没错，这是一个视觉语言深度学习框架就可以拥有的。这个库的庐山真面目是：Salesforce亚洲研究院推出的LAVIS。并且，它还统一了接口，降低开发成本和入门门槛。最重要的是：已开源！ LAVIS全⽅位⽀持视觉语⾔任务、数据集、模型。如果还不能看不出它的优势，那话不多说，直接看LAVIS与现有多模态库的对比图。相较之下，现存的视

2022-10-09

4740

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权本文提出了 Tip-Adapter，一种可以免于训练的将 CLIP 用于下游 few-shot 图像分类的方案。论文链接：https://arxiv.org/pdf/2207.09519.pdf 代码链接：https://github.com/gaopengcuhk/Tip-Adapter 一．研究背景对比性图像语言预训练模型（CLIP）在近期展现出了强大的视觉领域迁移能力，可以在一个全新的下游数据集上进行 zero-shot 图像

2022-09-27

5850

解密！为了攻击西工大，美国国安局竟动用54台跳板机和代理服务器

安全网络安全运维 tcp/ip

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】今年4月，西北工业大学的信息系统发现遭受网络攻击。今天，幕后黑手终于挖出来了，没想到竟是美国国家安全局。今天，国家计算机病毒应急处理中心和360公司分别发布了关于西北工业大学遭受境外网络攻击的调查报告。调查发现，美国国家安全局（NSA）下属的特定入侵行动办公室（TAO）多年来对我国国内的网络目标实施了上万次的恶意网络攻击，控制了相关网络设备，窃取了超过140GB的高价值数据。原来不法分子是美国国安局今年4月，

2022-09-07

3010

超越CLIP的多模态模型，只需不到1%的训练数据！南加大最新研究来了

opencv tcp/ip 深度学习 pytorch c++

来源 | 公众号量子位火爆全网的AI绘画你玩了吗？女娲无限版、DALL·E2、Imagen……这些通过文字生成图像的AI绘画工具，背后的原理都是一个叫“CLIP”的模型，它是AI如何“理解”人类语义这一问题的关键。 CLIP（Contrastive Language–Image Pre-training），是一种基于对比的图片-文本学习的跨模态预训练模型，由OpenAI于去年1月发布。它好用是好用，但一个大问题是数据需求太大：4亿个图像文本对、256个GPU，这对许多公司和个人都很不友好。对此，

2022-08-29

1.4K0

听声辨物，这是AI视觉该干的？？？｜ECCV 2022

tcp/ip https SSL 证书网络安全

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号量子位授权听到“唔哩——唔哩——”的警笛声，你可以迅速判断出声音来自路过的一辆急救车。能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢？来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务（Audio-Visual Segmentation, AVS)。视听分割，就是要分割出发声物，而后生成发声物的精细化分割图。相应的，研究人员提出了第一个具有像素级标注的视听数据集AVSBenc

2022-08-29

2990

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

机器学习神经网络深度学习人工智能 tcp/ip

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权来自罗彻斯特大学和 Adobe Research 的研究者提出了一种新的生成网络 CM-GAN，很好地合成了整体结构和局部细节，在定量和定性评估方面都显著优于现有 SOTA 方法，如 CoModGAN 和 LaMa。图像修复是指对图像缺失区域进行补全，是计算机视觉的基本任务之一。该方向有许多实际应用，例如物体移除、图像重定向、图像合成等。早期的修复方法基于图像块合成或颜色扩散来填充图像缺失部分。为了完成更复杂的图像结构，研究人员开始转

2022-08-29

5070

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度大大提升 | 东大&商汤&悉大

tcp/ip https 网络安全编程算法

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号量子位授权自何恺明MAE横空出世以来，MIM（Masked Image Modeling）这一自监督预训练表征越来越引发关注。但与此同时，研究人员也不得不思考它的局限性。 MAE论文中只尝试了使用原版ViT架构作为编码器，而表现更好的分层设计结构（以Swin Transformer为代表），并不能直接用上MAE方法。于是，一场整合的范式就此在研究团队中上演。代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM，它探索了Swin

2022-05-31

5290

叫板DALL·E 2，预训练大模型做编码器，谷歌把文字转图像模型卷上天

NLP 服务 tcp/ip

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权 OpenAI：DALL・E 2 就是最好的。谷歌：看下我们 Imagen 生成的柴犬？多模态学习近来受到重视，特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注，例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在，来自谷歌的研究者也在这一方向做出了探索，提出了一种文本到图像的扩散模型 Imagen。 Imagen 结合了 Transfor

2022-05-25

5260

Github开发大神教你玩转数据库编程

memcached tcp/ip 数据库 sql jquery

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】每个人的心目中都有自己最喜欢的编程问题。这次，我们先跟着这位大佬去数据库的世界里溜一圈看看。在Github上，一位名叫Arthur O’Dwyer的用户，经常发表关于C++编程语言方面的东西。最近，他分享了一次发生在2013年的软件工程面试经历。如今，9年时间已过，他却对此记忆犹新。 Dwyer表示，这道题可以说是大多数真实世界编程的一个缩影。就比如说，当你维护一个庞大的代码库时，总会有一些你不完全理解的代码路

2022-05-05

2580

多模态新王登基！OpenAI发布DALL·E 2，生成图像「指哪打哪」

tcp/ip 数据分析

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】大艺术家重磅升级！最近OpenAI发布升级版DALL·E 2，不仅分辨率提升了4倍，准确率更高，业务也更广了：除了生成图像，还能二次创作！ 2021年1月，OpenAI放了一个大招：DALL-E模型，让自然语言和图像成功牵手，输入一段不管多离谱的文本，都能生成图片！比如经典的「牛油果形状的扶手椅」，还有新奇生物「一个长颈鹿乌龟」。当时看着已经够神奇了吧？时隔一年，OpenAI结合另一个多模态模型CLIP，发布

2022-04-14

9390

一文掌握原生GAN论文复现方法！

机器学习神经网络深度学习人工智能 tcp/ip

在近20年GAN可以说是深度学习非常火的研发方向。原因不外乎，GAN的应用落地也已经非常广泛，包括图像生成（超分辨率）、语义分割、文字生成、数据增强、信息检索/排序、聊天机器人等。还有近期席卷B站的AI视频换脸技术；专门针对二次元图像的Real-CUGAN算法模型。以及腾讯研究出的GFP-GAN模型使用丰富多样的面部先验进行面部修复。广泛的应用案例，大厂研发团队的加持，GAN成为了更多准研究生的研究方向。学GAN一定要学的是——原生GAN是Ian Goodfellow 发表的第一篇提出 GAN

2022-04-07

7300

AI靠语意理解把照片变抽象画，无需相应数据集，只画4笔也保留神韵，有毕加索内味儿了

tcp/ip github https git 开源

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号量子位授权只用几笔，如何勾勒一只动物的简笔画，很多人从小都没整明白的问题—— 如今AI也能实现了。下面图中，左边是三张不同的动物照片，右边是AI仅用线条来描出它们的外形和神态。从32笔到4笔，即使大量信息都抽象略去了，但我们还是能辨识出对应动物，尤其是最下面的猫猫，只需4笔曲线也能展示出猫的神韵：再看这匹马，抽象到最后只保留了马头、马鬃和扬蹄飞奔的动作，真有点毕加索那幅公牛那味儿了。更神奇的是，其背后的模型CLIPasso并没有在速写

2022-03-21

6020

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

https tcp/ip ide 网络安全

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】ImageNet排行榜又双叒叕被刷新啦！不过这回，新霸主谷歌没有提出新模型，只靠微调「几个」模型就做到了第一，论文通篇都是实验分析，这也引起了网友的争议：全靠财大气粗！最近，谷歌又靠着强大的计算资源豪横了一把，而且还顺手捎上了一位Meta AI的朋友。不得不说，这两个「冤家」的合作可不多见。论文链接：https://arxiv.org/abs/2203.05482 研究团队提出了一种称为「模型汤」的概念，通过在

2022-03-21

4680

使用图像分割来做缺陷检测的一个例子

图像识别 tcp/ip

作者：Vinithavn 编译：ronghuaiyang 导读一个简单的例子，详细的过程和代码说明。 1. 介绍什么是物体检测？给定一张图像，我们人类可以识别图像中的物体。例如，我们可以检测

2021-06-08

2.5K0

Max-DeepLab全景分割流水线，分辨率高达51.3%

图像处理 tcp/ip https 机器学习网络安全

2015年毕业于上海交通大学计算机工程专业的王会宇（Huiyu Wang），在本科期间就一直边做科研助理，边学习，一直保持是班里的Top 5%呢。

2021-05-07

9160

华为北大等联手打造的Transformer竟在CV领域超过了CNN：多项底层视觉任务达到SOTA

tcp/ip 图像处理 NLP 服务

但其实，这个在各种自然语言处理任务中「混迹」，强大的无监督预训练模型，现在已经在「计算机视觉」的道路上越走越远了。

2020-12-08

5990

速度提升一倍，无需实例掩码预测即可实现全景分割

tcp/ip 图像识别编程算法

论文链接：https://arxiv.org/pdf/1910.03892.pdf

2019-10-30

6760

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态