首页
学习
活动
专区
圈层
工具
发布
首页标签计算机视觉

#计算机视觉

Pipecat:构建实时语音 AI Agent 的开源编排框架,500ms 级端到端延迟

CoovallyAIHub

语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper,LLM 有 GPT、Claude、Gemini,TTS 有 ElevenLabs、A...

1000

Energies | 8版YOLO对8版Transformer实测光伏缺陷检测,RF-DETR-Small综合胜出

CoovallyAIHub

大型光伏电站中,一块面板出现热斑或裂纹,肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配,但拍下来的热图交给哪个检测模型更合适?YOL...

1000

多语言AI图像生成器NeoBabel开源发布

用户11764306

虽然文本到图像的生成技术正在迅速发展,但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel,一...

2300

基于带限辐射场的动态场景NeRF建模

用户11764306

通过将光和密度场表示为基函数的加权和(其权重随时间变化),改进了运动捕捉、纹理和光照效果。

11710

ICLR 2026 | MedAgent-Pro:用 Agent 工作流模拟临床医生的循证诊断过程

CoovallyAIHub

多模态大模型(MLLM)在医学影像诊断上有一个根本性矛盾:它们能"看"图像、能"说"结论,但做不好临床诊断中最关键的一步——定量分析。测量杯盘比、计算射血分数、...

10210

智谱 GLM-OCR:0.9B 小模型登顶 OCR 榜单,3月起还能一行代码接入 Agent

CoovallyAIHub

文档 OCR 领域正在经历一场参数量军备竞赛——Qwen3-VL 用 235B 参数拿到 89 分,Gemini-3 Pro 拿到 90 分。但 OmniDoc...

26610

中文语音识别该用谁?6 个开源模型 + 2 个配套工具,一文理清

CoovallyAIHub

中文语音识别的开源方案越来越多,但它们不在同一个层面上——有的是模型,有的是工具包,有的是部署运行时。直接把它们摊在一张表里比"谁更好",容易越看越糊涂。本文把...

43210

面向网约车合规化监管的智能运输证识别技术:基于CV与NLP深度融合的网约车运输证识别系统

中科逸视OCR专家

随着共享出行行业的规范化发展,网约车平台对车辆合规性的审核需求日益严苛。《网络预约出租汽车运输证》(以下简称“运输证”)作为车辆合法运营的核心凭证,其信息的自动...

12610

亚马逊研究奖公布,聚焦AI与ML核心技术

用户11764306

获奖者来自八个国家的30多所大学。获奖者将能够访问某机构公共数据集,以及某机构云服务的AI/ML服务和工具。

8710

FunASR:几行代码搞定语音识别全流程的开源工具包,GitHub已获15.2k Star!

CoovallyAIHub

语音识别(ASR)是人工智能落地最广泛的方向之一,但学术界的前沿模型与工业界的实际部署之间一直存在距离。

67030

RF-DETR:最近一个月迭代 5 个版本的实时检测+分割模型

CoovallyAIHub

实时目标检测长期由 YOLO 系列主导,Transformer 架构因推理速度劣势一直难以进入实时场景。

28820

混合查询Transformer实现图像分割跨任务扩展

用户11764306

在提交至2025年计算机视觉与模式识别会议(CVPR)的论文中,介绍了一种能跨多样化数据集和任务进行扩展的图像分割新方法。传统的分割模型在孤立任务上效果显著,但...

9710

PaveSync:跨国5.2万张图像路面病害基准,7款模型横评(YOLOv8-v12+Faster R-CNN+DETR)

CoovallyAIHub

路面病害检测领域长期缺乏统一的大规模基准数据集,各研究使用不同数据源、标注格式和类别定义,导致模型间难以直接比较。

12710

当LLM智能体走出数字世界:日立提出分层框架实现无人机自主工业巡检

CoovallyAIHub

将 LLM 智能体框架应用于无人机物理巡检是一个新兴方向,但不同推理方法在实际任务中的表现差异尚不清楚。

17310

中山大学联合中国电建:基于大疆M300无人机自动巡检风电叶片,120次实飞成功率98.3%

CoovallyAIHub

风电叶片在恶劣天气下易受损,需定期巡检。传统方式依赖人工操作,效率低且存在安全风险;现有无人机自动巡检方案则面临两个难题——叶片停止角度估计易受背景干扰,拍摄过...

23410
领券