首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Google推出MedGemma1.5驱动的下一代医学影像解析与MedASR医疗语音识别系统

Google推出MedGemma1.5驱动的下一代医学影像解析与MedASR医疗语音识别系统

作者头像
DrugAI
发布2026-01-29 12:42:39
发布2026-01-29 12:42:39
960
举报

DRUGONE

人工智能在医疗领域的应用正以前所未有的速度加速推进,医疗行业采用 AI 的速度已达到整体经济体系的两倍。顺应这一趋势,Google 去年通过 Health AI Developer Foundations(HAI-DEF)计划发布了开放医疗生成模型系列 MedGemma,为开发者提供可扩展、可定制的医疗 AI 基础模型。

自发布以来,MedGemma 在社区获得了巨大反响,在 Hugging Face 上已累计数百万次下载,并衍生出数百个社区版本。

在此基础上,Google 近日正式推出 MedGemma 1.5 4B 模型,并同步发布专为医疗语音转写优化的 MedASR 模型,全面升级医学影像解析与医疗多模态智能能力。

MedGemma 1.5:面向真实医疗场景的多模态基础模型升级

MedGemma 从设计之初便定位为多模态医学模型,以适配医学数据天然的多模态特性。

MedGemma 1 支持内容包括:

  • 胸部 X 光影像
  • 皮肤科图像
  • 眼底影像
  • 组织病理切片块

MedGemma 1.5 新增关键能力:

高维医学影像解析

  • CT 三维体数据
  • MRI 三维体数据
  • 全视野组织病理切片

纵向医学影像分析

  • 胸部 X 光时间序列变化评估

解剖结构定位

  • 胸片关键解剖特征精确定位

医疗文档结构化理解

  • 实验室报告信息自动抽取

开发者可将多个 CT/MRI 切片或病理图像块与任务提示同时输入模型,实现复杂医学影像任务建模。

高维影像性能显著提升

在内部评测中:

  • CT 疾病发现分类准确率提升 3%(61% vs. 58%);
  • MRI 疾病发现分类提升 14%(65% vs. 51%);
  • 病理图像结果一致性(ROUGE-L)从 0.02 提升至 0.49,达到专用模型水平。

研究人员指出,MedGemma 1.5 是首个公开发布的开放多模态大模型,能够同时处理高维医学影像、二维图像与文本信息。

其他医学影像任务表现提升

  • 解剖定位任务:IoU 提升 35%;
  • 纵向影像分析:宏平均准确率提升 5%;
  • 单图像医学解读:整体提升 3%;
  • 实验室报告抽取:结构化信息检索 F1 提升 18%。

此外,Google Cloud 已原生支持 DICOM 医学影像格式,极大简化临床系统集成。

文本医疗能力同步增强

通过新增训练数据与优化训练策略,MedGemma 1.5 在医学文本任务上同样取得显著进步:

  • MedQA 医学问答:提升 5%;
  • 电子病历问答(EHRQA):提升 22%;

这使得 MedGemma 在临床知识理解与医疗记录分析方面更加可靠。

MedASR:面向医疗场景的专业语音转写模型

在医疗实践中,语音仍是核心交互方式之一,包括:

  • 医生口述病历;
  • 临床交流记录;
  • 诊断说明。

为适配医疗专业术语密集场景,研究人员推出 MedASR 医疗语音识别模型。

与通用语音模型对比表现:

MedASR 可无缝连接 MedGemma,实现:医疗语音 → 文本 → 智能推理的一体化工作流

真实医疗应用案例

🇲🇾 马来西亚临床指南智能助手

Qmed Asia 将 MedGemma 集成至 askCPG 系统,构建可对话式临床指南查询平台,显著提升临床决策效率,并扩展医学影像理解功能。

🇹🇼 台湾肺癌术前评估分析

台湾健保机构利用 MedGemma 自动解析超过 30,000 份病理报告,提取关键医学指标,用于术前风险分析与政策制定优化。

学术研究支持

MedGemma 已被广泛应用于:

  • 医学文本理解
  • 多学科会诊辅助
  • 乳腺影像报告分析
  • 临床推理研究

并在多项研究中作为基础模型展现出优越性能。

MedGemma Impact Challenge:推动医疗AI创新

Google 同步启动 MedGemma Impact Challenge 黑客松竞赛:

💰 奖金总额:100,000 美元

🌍 面向全球开发者

🎯 鼓励构建医疗与生命科学创新应用

整理 | DrugOne团队

参考资料

  • https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/
  • https://huggingface.co/google/medgemma-1.5-4b-it
  • https://www.kaggle.com/competitions/med-gemma-impact-challenge
  • https://developers.google.com/health-ai-developer-foundations/medasr/
  • https://developers.google.com/health-ai-developer-foundations/medsiglip

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档