计算机视觉战队-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

计算机视觉战队

专栏成员

822

文章

799247

阅读量

106

订阅数

一种基于YOLO-v8的智能城市火灾探测改进方法

v8 yolo 框架模型算法

城市的火灾可能会造成毁灭性的后果，造成财产损失，并危及公民的生命。传统的火灾探测方法在准确性和速度方面存在局限性，使得实时探测火灾具有挑战性。

计算机视觉研究院

2023-09-22

7870

置顶

当YoloV8与ChatGPT互通，这功能是真的强大！后期打通语音试试

chatgpt 模型视频优化语音

ChatGPT（全名:Chat Generative Pre-trained Transformer），是OpenAI研发的聊天机器人程序，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。

计算机视觉研究院

2023-10-07

4350

置顶

Sigmoid注意力一样强，苹果开始重新审视注意力机制

苹果函数架构内存内核

注意力是 Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，然后通过 softmax 函数归一化，会得到每个键对应的注意力权重。

计算机视觉研究院

2024-09-19

170

VIVO提出泛化性更强的SAM（附源码下载）

源码基础模型数据优化

由 Meta AI 开发的 Segment Anything Model（SAM）在图像分割任务中表现杰出。然而，和其他类似模型一样，SAM 在某些特定的细分应用中也遇到了限制，这促使研究者寻找一种在不损害其固有泛化能力前提下对其进行性能提升的策略。

计算机视觉研究院

2024-08-30

740

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

模型视频系统性能论文

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。

计算机视觉研究院

2024-08-30

1450

揭秘！47页文档拆解苹果智能，从架构、数据到训练和优化

优化架构模型苹果数据

在 2024 年全球开发者大会上，苹果重磅推出了 Apple Intelligence，这是一个全新的个性化智能系统，可以提供实用的智能服务，覆盖 iPhone、iPad 和 Mac，并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。

计算机视觉研究院

2024-08-02

990

从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定

视频数据 t4 架构模型

OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型，是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。

计算机视觉研究院

2024-07-15

1580

YotoR：融合 Swin Transformer 和YoloR 的混合架构，提升目标检测性能

网络性能计算机视觉架构模型

今天给大家介绍了YotoR（You Only Transform One Representation），这是一种新的目标检测深度学习模型，结合了Swin Transformers和YoloR架构。

计算机视觉研究院

2024-06-06

2520

你没有看过的全新版本，Transformer数学原理揭秘

数据数学架构论文模型

论文地址：https://arxiv.org/pdf/2312.10794.pdf

计算机视觉研究院

2024-06-06

2010

One-Shot都嫌多，Zero-Shot实例样本分割

zero 测试框架模型网络

给一个包含了未知种类多个实体的没训练过的新样本(the query image)，如何检测以及分割所有这些实例？？？

计算机视觉研究院

2024-06-06

1240

人大系多模态模型迈向AGI：首次实现自主更新，写真视频生成力压Sora

人工智能行业模型视频数据

在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上，人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0，向 AGI 迈出至关重要的一步。

计算机视觉研究院

2024-04-30

1980

【重磅！免费公开课】Llama 3技术剖析、微调、部署以及多模态训练

开源部署工程师量化模型

Meta公司推出了开源大语言模型Llama系列的最新产品—Llama 3，包含了80亿参数的Llama 3 8B和700亿参数的Llama 3 70B两个版本。Meta称其为“迄今为止最强的开源大模型”。

计算机视觉研究院

2024-04-25

3140

模型压缩：CNN和Transformer通用，修剪后精度几乎无损，速度提升40%

性能压缩模型搜索网络

论文地址：https://arxiv.org/pdf/2401.06426.pdf

计算机视觉研究院

2024-04-25

4900

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

网络基础论文模型数据

第一个针对「Segment Anything」大模型的域适应策略来了！相关论文已被CVPR 2024 接收。

计算机视觉研究院

2024-04-17

6450

CVPR 2024 | 一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

视频数据性能基础模型

近年来，LLM 已经一统所有文本任务，展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力，其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务，目前依然缺乏一个强大的基础模型。

计算机视觉研究院

2024-04-17

5700

这样检测是不是更准！ | 深度Stereo结构网络用于目标检测（附源码）

网络性能源码自动驾驶编码

目前自动驾驶愈演愈烈，技术也越来越成熟，从不可能上路到现在大家抢着去感受该新技术，未来电车是趋势，该领域的技术会是研究者关注的热点的话题。今日，我们“计算机视觉研究院”来跟大家分享一个高精度的目标检测框架！

计算机视觉研究院

2024-03-14

1490

SuperYOLO：多模态遥感图像中的超分辨率辅助目标检测（附源代码）

设计网络性能对象模型

源码地址：https://github.com/icey-zhang/SuperYOLO

计算机视觉研究院

2024-03-13

1.7K0

OpenAI开源了：Transformer自动debug工具上线GitHub

github 开源 debug openai 工具

今天一早，OpenAI 机器学习研究员 Jan Leike 宣布，OpenAI 开放了自己内部一直用于分析 Transformer 内部结构的工具。

计算机视觉研究院

2024-03-13

1870

设计数据网络架构模型

现在的深度学习方法侧重于如何设计最合适的目标函数，使模型的预测结果最接近实际情况。同时，必须设计一种适当的架构，该架构可以促进获取足够的信息用于预测。

计算机视觉研究院

2024-03-13

1700

清华、哈工大把大模型压缩到了1bit，放到手机里跑的愿望快要实现了！

bit 量化模型手机压缩

论文标题：OneBit: Towards Extremely Low-bit Large Language Models

计算机视觉研究院

2024-03-04

5590

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态