首页
学习
活动
专区
工具
TVP
发布

计算机视觉战队

专栏成员
821
文章
798699
阅读量
106
订阅数
一种基于YOLO-v8的智能城市火灾探测改进方法
城市的火灾可能会造成毁灭性的后果,造成财产损失,并危及公民的生命。传统的火灾探测方法在准确性和速度方面存在局限性,使得实时探测火灾具有挑战性。
计算机视觉研究院
2023-09-22
7840
置顶
当YoloV8与ChatGPT互通,这功能是真的强大!后期打通语音试试
ChatGPT(全名:Chat Generative Pre-trained Transformer),是OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。
计算机视觉研究院
2023-10-07
4340
置顶
VIVO提出泛化性更强的SAM(附源码下载)
由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样,SAM 在某些特定的细分应用中也遇到了限制,这促使研究者寻找一种在不损害其固有泛化能力前提下对其进行性能提升的策略。
计算机视觉研究院
2024-08-30
740
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。
计算机视觉研究院
2024-08-30
1440
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆盖 iPhone、iPad 和 Mac,并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。
计算机视觉研究院
2024-08-02
990
从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定
OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。
计算机视觉研究院
2024-07-15
1570
YotoR:融合 Swin Transformer 和YoloR 的混合架构,提升目标检测性能
今天给大家介绍了YotoR(You Only Transform One Representation),这是一种新的目标检测深度学习模型,结合了Swin Transformers和YoloR架构。
计算机视觉研究院
2024-06-06
2510
你没有看过的全新版本,Transformer数学原理揭秘
论文地址:https://arxiv.org/pdf/2312.10794.pdf
计算机视觉研究院
2024-06-06
2010
One-Shot都嫌多,Zero-Shot实例样本分割
给一个包含了未知种类多个实体的没训练过的新样本(the query image),如何检测以及分割所有这些实例???
计算机视觉研究院
2024-06-06
1240
人大系多模态模型迈向AGI:首次实现自主更新,写真视频生成力压Sora
在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0,向 AGI 迈出至关重要的一步。
计算机视觉研究院
2024-04-30
1980
【重磅!免费公开课】Llama 3技术剖析、微调、部署以及多模态训练
Meta公司推出了开源大语言模型Llama系列的最新产品—Llama 3,包含了80亿参数的Llama 3 8B和700亿参数的Llama 3 70B两个版本。Meta称其为“迄今为止最强的开源大模型”。
计算机视觉研究院
2024-04-25
3130
模型压缩:CNN和Transformer通用,修剪后精度几乎无损,速度提升40%
论文地址:https://arxiv.org/pdf/2401.06426.pdf
计算机视觉研究院
2024-04-25
4860
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
第一个针对「Segment Anything」大模型的域适应策略来了!相关论文已被CVPR 2024 接收。
计算机视觉研究院
2024-04-17
6450
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。
计算机视觉研究院
2024-04-17
5690
这样检测是不是更准! | 深度Stereo结构网络用于目标检测(附源码)
目前自动驾驶愈演愈烈,技术也越来越成熟,从不可能上路到现在大家抢着去感受该新技术,未来电车是趋势,该领域的技术会是研究者关注的热点的话题。今日,我们“计算机视觉研究院”来跟大家分享一个高精度的目标检测框架!
计算机视觉研究院
2024-03-14
1490
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
源码地址:https://github.com/icey-zhang/SuperYOLO
计算机视觉研究院
2024-03-13
1.7K0
OpenAI开源了:Transformer自动debug工具上线GitHub
今天一早,OpenAI 机器学习研究员 Jan Leike 宣布,OpenAI 开放了自己内部一直用于分析 Transformer 内部结构的工具。
计算机视觉研究院
2024-03-13
1870
YOLOv9
现在的深度学习方法侧重于如何设计最合适的目标函数,使模型的预测结果最接近实际情况。同时,必须设计一种适当的架构,该架构可以促进获取足够的信息用于预测。
计算机视觉研究院
2024-03-13
1680
清华、哈工大把大模型压缩到了1bit,放到手机里跑的愿望快要实现了!
论文标题:OneBit: Towards Extremely Low-bit Large Language Models
计算机视觉研究院
2024-03-04
5590
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba
去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。
计算机视觉研究院
2024-03-04
4110
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档