近日,苹果公司公布了一项名为《Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation》的研究报告,重点探索了利用语音处理模型估算心率的可行性。尽管语音处理模型最初是为识别语音而设计的,但苹果的研究人员发现,这些模型同样能够有效处理心音图(Phonocardiogram,PCG)数据,这在心脏健康监测中具有重要价值。
研究团队使用了公开的CirCor DigiScope Phonocardiogram数据集,包含约20小时的心音录音,每段录音时长在5.1至64.5秒之间。将这些音频文件分割为每秒移动一次的5秒片段,共生成23381个心音片段用于心率转换测量。研究测试了包括Whisper、wav2vec2、wavLM等在内的六个主流语音处理模型,并将其与苹果自研的CLAP(Contrastive Language-Audio Pretraining)模型进行了对比实验。
结果显示,苹果自研的CLAP模型在不同数据分割中都取得了最低的平均绝对误差(MAE),明显优于传统声学特征训练的基准模型。这表明,CLAP模型由于其训练数据涵盖了更多非语音内容,能够更好地捕捉心音相关特征,从而提升心率估算的准确性。该研究展示了语音处理模型在处理心音图数据方面的巨大潜力,为未来心率监测技术的发展指明了新的方向。
这项研究不仅对医学领域具有重要意义,同时也展示了语音处理技术在健康监测中的广阔应用前景。苹果公司表示,他们将继续探索语音处理模型在医疗健康领域的应用,努力为用户提供更便捷、准确的健康监测服务。