语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper,LLM 有 GPT、Claude、Gemini,TTS 有 ElevenLabs、A...
大型光伏电站中,一块面板出现热斑或裂纹,肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配,但拍下来的热图交给哪个检测模型更合适?YOL...
虽然文本到图像的生成技术正在迅速发展,但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel,一...
通过将光和密度场表示为基函数的加权和(其权重随时间变化),改进了运动捕捉、纹理和光照效果。
多模态大模型(MLLM)在医学影像诊断上有一个根本性矛盾:它们能"看"图像、能"说"结论,但做不好临床诊断中最关键的一步——定量分析。测量杯盘比、计算射血分数、...
文档 OCR 领域正在经历一场参数量军备竞赛——Qwen3-VL 用 235B 参数拿到 89 分,Gemini-3 Pro 拿到 90 分。但 OmniDoc...
中文语音识别的开源方案越来越多,但它们不在同一个层面上——有的是模型,有的是工具包,有的是部署运行时。直接把它们摊在一张表里比"谁更好",容易越看越糊涂。本文把...
随着共享出行行业的规范化发展,网约车平台对车辆合规性的审核需求日益严苛。《网络预约出租汽车运输证》(以下简称“运输证”)作为车辆合法运营的核心凭证,其信息的自动...
获奖者来自八个国家的30多所大学。获奖者将能够访问某机构公共数据集,以及某机构云服务的AI/ML服务和工具。
语音识别(ASR)是人工智能落地最广泛的方向之一,但学术界的前沿模型与工业界的实际部署之间一直存在距离。
实时目标检测长期由 YOLO 系列主导,Transformer 架构因推理速度劣势一直难以进入实时场景。
在提交至2025年计算机视觉与模式识别会议(CVPR)的论文中,介绍了一种能跨多样化数据集和任务进行扩展的图像分割新方法。传统的分割模型在孤立任务上效果显著,但...
路面病害检测领域长期缺乏统一的大规模基准数据集,各研究使用不同数据源、标注格式和类别定义,导致模型间难以直接比较。
将 LLM 智能体框架应用于无人机物理巡检是一个新兴方向,但不同推理方法在实际任务中的表现差异尚不清楚。
风电叶片在恶劣天气下易受损,需定期巡检。传统方式依赖人工操作,效率低且存在安全风险;现有无人机自动巡检方案则面临两个难题——叶片停止角度估计易受背景干扰,拍摄过...