腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”。www.52cv.net QQ群: 805388940
专栏作者
举报
803
文章
806824
阅读量
61
订阅数
订阅专栏
申请加入专栏
全部文章(803)
https(240)
网络安全(223)
编程算法(213)
深度学习(175)
神经网络(170)
机器学习(131)
开源(116)
人工智能(114)
github(111)
图像处理(110)
git(83)
图像识别(81)
模型(78)
数据(59)
人脸识别(34)
NLP 服务(30)
监督学习(30)
性能(30)
论文(29)
tcp/ip(27)
视频(26)
pytorch(23)
安全(22)
框架(21)
linux(19)
卷积神经网络(18)
opencv(16)
网络(16)
设计(15)
tensorflow(14)
python(14)
腾讯云测试服务(14)
学习方法(14)
token(14)
工作(14)
算法(13)
文件存储(12)
css(10)
文字识别(10)
缓存(10)
mask(10)
测试(10)
可视化(10)
自动驾驶(9)
渲染(9)
数据结构(9)
基础(9)
数据库(8)
http(8)
存储(8)
强化学习(8)
数据分析(8)
image(8)
对象(8)
sql(7)
批量计算(7)
日志服务(7)
无人驾驶(7)
迁移(7)
patch(7)
编码(7)
系统(7)
优化(7)
html(6)
ide(6)
迁移学习(6)
腾讯云开发者社区(6)
联邦学习(6)
map(6)
函数(6)
go(5)
api(5)
网站(5)
大数据(5)
db(5)
连接(5)
腾讯(5)
javascript(4)
云直播(4)
vr 视频解决方案(4)
面向对象编程(4)
kernel(4)
机器人(4)
数据处理(4)
block(4)
network(4)
video(4)
工具(4)
公众号(4)
架构(4)
开发(4)
.net(3)
android(3)
单片机(3)
打包(3)
人脸核身(3)
游戏(3)
正则表达式(3)
backbone(3)
embedding(3)
epoch(3)
gpu(3)
spatial(3)
变量(3)
集群(3)
量化(3)
异常(3)
scala(2)
node.js(2)
jquery(2)
arm(2)
短视频(2)
SSL 证书(2)
医疗(2)
容器(2)
分布式(2)
keras(2)
无监督学习(2)
微信(2)
视频分析(2)
智能推荐平台(2)
图像分析(2)
action(2)
detection(2)
frame(2)
gpt(2)
identity(2)
key(2)
masking(2)
mobile(2)
modeling(2)
path(2)
self(2)
set(2)
shift(2)
size(2)
super(2)
text(2)
time(2)
表格(2)
布局(2)
计算机视觉(2)
手机(2)
搜索(2)
统计(2)
图表(2)
隐私(2)
对象存储(1)
其他(1)
cocoa(1)
xcode(1)
java(1)
c 语言(1)
c++(1)
bootstrap(1)
xml(1)
typescript(1)
opengl(1)
汇编语言(1)
硬件开发(1)
flask(1)
mapreduce(1)
访问管理(1)
人脸融合(1)
知识图谱(1)
云转码(1)
数据安全(1)
svg(1)
自动化(1)
shell(1)
ssh(1)
gcc(1)
scikit-learn(1)
模式识别(1)
小程序(1)
windows(1)
架构设计(1)
sas(1)
fpga(1)
分类算法(1)
5g(1)
unicode(1)
sdk(1)
ghost(1)
手势识别(1)
汽车(1)
智能制造(1)
大模型视频创作引擎(1)
acm(1)
adobe(1)
agent(1)
aigc(1)
alpha(1)
analysis(1)
ast(1)
blur(1)
cell(1)
class(1)
code(1)
dataset(1)
dp(1)
encoding(1)
evaluation(1)
feed(1)
filter(1)
gradient(1)
header(1)
highlight(1)
input(1)
instance(1)
intel(1)
iot(1)
jpeg(1)
kaggle(1)
ld(1)
line(1)
live(1)
local(1)
localization(1)
ls(1)
lstm(1)
max(1)
mean(1)
medium(1)
mef(1)
memory(1)
mesh(1)
mnist(1)
model(1)
mq(1)
normalization(1)
owl(1)
padding(1)
parallax(1)
performance(1)
point(1)
precision(1)
prediction(1)
proc(1)
process(1)
prompt(1)
ps(1)
random(1)
reshape(1)
rgb(1)
sampling(1)
scale(1)
shuffle(1)
sign(1)
split(1)
stream(1)
table(1)
vr(1)
yolo(1)
youtube(1)
zero(1)
百度(1)
部署(1)
插件(1)
产品(1)
程序(1)
反射(1)
服务(1)
工程师(1)
集合(1)
技巧(1)
教程(1)
解决方案(1)
内存(1)
苹果(1)
索引(1)
效率(1)
压缩(1)
音频(1)
用户体验(1)
图像分割(1)
搜索文章
搜索
搜索
关闭
字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V
开源
表格
模型
数据
性能
近期多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展,尤其是多个闭源的例如GPT4V和Gemini,甚至在某些方面展现了超越人类的能力。但是开源模型的性能还远远落后于闭源模型,最近许多开创性的研究例如MonKey、LLaVAR、TG-Doc、ShareGPT4V等已开始关注指令微调数据不足的问题,尽管这些努力取得了显著的效果,但仍存在一些问题,图像描述数据和VQA数据属于不同的领域,图像内容呈现的粒度和范围存在不一致性。此外,合成数据的规模相对较小,使得MLLM无法充分发挥潜力。
CV君
2024-04-25
51
0
CVPR 2024 | 腾讯优图实验室20篇论文入选,含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向
人脸识别
论文
模型
数据
腾讯
近日,CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。
CV君
2024-04-25
126
0
第一个基于 Llama-3 的多模态大模型, Bunny-Llama-3-8B-V 正式上线
模型
数据
架构设计
架构
框架
Bunny 团队推出第一个基于 Llama-3 的多模态大模型!Bunny-Llama-3-8B-V 正式上线,超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B 模型。在众多主流 Benchmark 上表现良好,具有更好的识别、数学和推理能力。
CV君
2024-04-25
39
0
CVPR 2024 | LiDM:首个可以根据多模态条件生成逼真的激光雷达场景方法,加速107倍
自动驾驶
汽车
模型
设计
性能
本篇文章分享 CVPR 2024 论文LiDAR Diffusion:Towards Realistic Scene Generation with LiDAR Diffusion Models,利用激光雷达扩散模型生成逼真场景。
CV君
2024-04-25
37
0
生图超级外挂!贾佳亚团队提出VLM模型Mini-Gemini,堪比GPT4+DALLE3王炸组合
开源
编码
模型
数据
网络
更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,香港中文大学终身教授贾佳亚团队提出的这款多模态模型Mini-Gemini堪称绝绝子,相当于开源社区的GPT4+DALLE3的王炸组合!
CV君
2024-04-18
77
0
CVPR 2024 | 文本或图像提示精准编辑3D场景,美图&信工所&北航&中大联合提出3D编辑方法CustomNeRF
模型
渲染
计算机视觉
可视化
论文
美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图像作为3D场景的编辑提示,该研究成果已被CVPR 2024接收。
CV君
2024-04-18
137
0
西湖大学&浙江大学提出 Cobra,基于状态空间语言模型扩展的多模态大语言模型,更大规模、更轻量级
效率
性能
基础
模型
网络
本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference,由西湖大学&浙江大学联合提出一种基于状态空间语言模型扩展的多模态大语言模型。
CV君
2024-03-27
165
0
神奇!AI扩图&改图还能这么玩?
工具
量化
模型
算法
优化
最近,靠着出其不意的扩图效果,“AI扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不。
CV君
2024-03-26
102
0
PSLNet | 西工大&广西师大&港中文联合提出一种基于感知自监督卷积神经网络的噪声图像去水印方法
模型
网络
卷积神经网络
监督学习
可视化
本文分享论文Perceptive self-supervised learning network for noisy image watermark removal,由西工大&广西师大&港中文联合提出一种基于感知自监督学习网络的噪声图像去水印方法。
CV君
2024-03-25
74
0
CVPR 2024 | GLEE 华科与字节跳动联手打造全能目标感知基础模型
数据
对象
基础
模型
视频
近年来,LLM在文本处理的领先地位和视觉模型如CLIP在多模态任务上优秀的泛化表现,展示了基础模型在推进多模态感知、理解、生成方面的强大潜力。
CV君
2024-03-25
198
0
7B 最强多模态文档理解大模型 mPLUG-DocOwl 1.5
图表
文字识别
开源
模型
数据
多模态大模型 Multimodal LLM (MLLM) 相关研究致力于实现通用的图片理解,其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现通用的痛点。当前爆火的多模态大模型QwenVL-Max, Gemini, Claude3, GPT4V都具备很强的文档图片理解能力,然而开源模型在这个方向上的进展缓慢,距离这些闭源大模型具有很大差距 (例如DocVQA上开源7B SOTA 66.5,而Gemini Pro 1.5为86.5)。
CV君
2024-03-25
225
0
CVPR 2024 | 百度提出视觉新骨干ViT-CoMer,刷新密集预测任务SOTA
网络
百度
框架
数据
算法
本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions,由百度提出视觉新骨干 ViT-CoMer,刷新密集预测任务 SOTA。
CV君
2024-03-25
318
0
SWCNN | 西工大&哈工大& 台湾清华大学联合提出一种基于自监督卷积神经网络的图像去水印方法
卷积神经网络
db
可视化
设计
数据
本文分享论文A self-supervised CNN for image watermark removal,由西工大& 哈工大&台湾清华大学联合提出一种基于自监督卷积神经网络的图像去水印方法。
CV君
2024-03-25
93
0
CVPR 2024 | SVGDreamer: 北航&港大发布全新文本引导的矢量图形可微渲染方法
优化
渲染
svg
模型
设计
本篇分享 CVPR 2024 论文SVGDreamer: Text Guided SVG Generation with Diffusion Model,由北航&港大发布全新文本引导的矢量图形可微渲染方法,SVGDreamer。
CV君
2024-03-25
162
0
玩不到 Sora,先提前了解一下文生视频的提示词?
开发
模型
视频
数据
优化
在数字媒体和⼈⼯智能技术飞速发展的今天,视频内容的创作和表达⽅式正经历着翻天覆地的变化。Sora的出现不仅代表了⽂本到视频转换技术的重⼤进步,更开启了视频创作的全新时代。想象⼀下,只需通过简单的⽂字描述,就能⽣成⽣动、⾼质量的视频,这将为故事讲 述、沉浸式体验和内容创作带来⾰命性的变⾰。
CV君
2024-03-13
101
0
算力加速人脸识别技术发展:一文了解人脸识别开源库和数据集
开源
人脸识别
框架
论文
数据
人脸识别在我们的生活中随处可见,例如在大楼门禁系统中,它取代了传统的门禁卡或密码,提高了进出的便捷性和安全性。在商场安保方面,人脸识别被广泛应用于监控系统,有助于识别和跟踪潜在的犯罪嫌疑人或失踪人员,提升了安全防范的能力。另外,手机解锁也是人脸识别技术的重要应用之一,它为用户提供了一种快捷、便利的身份验证方式,替代了传统的密码或指纹识别。
CV君
2024-03-13
282
0
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
算法
开发
论文
模型
视频
随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景、动人的情节,甚至栩栩如生的角色,都可能是由 AI 算法创造出来的。当你观看一段视频时,你是否曾思考过这个问题:这是一个真实的视频,还是由 AI 算法生成的呢?
CV君
2024-03-05
155
0
2张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
公众号
数据
性能
github
工具
这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。
CV君
2024-03-05
123
0
基于扩散模型的图像编辑:首篇综述
表格
工具
框架
模型
性能
AIGC 大模型最火热的任务之一——基于 Diffusion Model 的图像编辑(editing)领域的首篇综述。长达 26 页,涵盖 297 篇文献!本文全面研究图像编辑前沿方法,并根据技术路线精炼地划分为 3 个大类、14 个子类,通过表格列明每个方法的类型、条件、可执行任务等信息。此外,本文提出了一个全新 benchmark 以及 LMM Score 指标来对代表性方法进行实验评估,为研究者提供了便捷的学习参考工具。强烈推荐 AIGC 大模型研究者或爱好者阅读,紧跟热点。
CV君
2024-03-05
143
0
MoE-LLaVA——将多模态大模型稀疏化
性能
工作
可视化
模型
数据
MoE-LLaVA只有3B个稀疏激活参数,表现与LLaVA-1.5-7B在各种视觉理解数据集上相当,并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在建立稀疏LVLMs的基准,并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。并且MoE-LLaVA团队已经开放了所有的数据、代码和模型。
CV君
2024-02-06
311
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档