首页
学习
活动
专区
圈层
工具
发布

首次实现脑信号实时转为语音!

说话是人类的一项基本能力。对于那些患有神经系统疾病或遭受神经损伤的人来说,失去说话能力是极其沉重的打击。

脑机接口(BCI)技术被认为是恢复语言能力的富有前景的手段。它通过解码脑活动,绕过神经系统中受损的部分,来帮助患者恢复语言能力。

当前大多数脑机接口系统的研究聚焦在将脑信号转化为文字,并显示在屏幕上。虽然这种方法准确率高,也有助于基本交流,但仅靠文字输出仍存在对话延迟的问题,也难以还原语调等语言细节,无法真正替代自然说话。

在一项新发表于《自然》杂志的研究中,一个研究团队展示了一种新型脑机接口系统。他们在一名患有严重构音障碍的患者脑中植入了四组微电极阵列,用以记录神经活动。系统对这些信号进行解码,实现了语音的即时合成。

一组安装于大脑表面的微电极阵列,用于实时记录神经信号。(图/UC Davis)

解码脑信号

这项研究的参与者是一名45岁的男性,他因肌萎缩性侧索硬化(ALS)而逐渐失去了清晰说话的能力。ALS是一种会损害运动神经元的神经系统疾病,会影响控制肌肉运动的神经,包括发声所需的肌群。虽然他仍能发声并缓慢说话,但语速极慢且发音含糊。

在他的症状出现五年后,他接受了植入手术:研究人员在其控制运动的脑区插入了256个硅电极,每个1.5毫米长。接下来,研究人员利用深度学习算法训练系统,让其每10毫秒采集一次他的脑信号(神经元活动),并将这些信号传输至计算机系统进行解码与语音合成。

一种研究性脑机接口设备,使研究参与者能够通过计算机进行交流。(图/UC Davis)

与以往的许多系统不同,新系统实时解码的是这名患者试图发出的声音,而非他想要表达的单词或音素(构成单词的语音亚单位)。换言之,新系统想要直接还原语音本身。

更丰富的语音输出

人类并不总是通过标准词汇表达所想,还会使用如感叹词、非语言声音等不属于固定词汇表的词来表达声音。为了实现这种开放式表达,新研究采用了完全不设限制的解码方式。研究人员让参与者尝试发出“啊”、“哦”、“嗯”等感叹词,甚至是虚构的词,并通过调节语调表达疑问、强调重点。这意味着,新系统不仅能合成固定词汇表中的词语,还可以用脑信号“唱出”简短旋律,实现音高控制。

团队还根据患者发病前的访谈录音来训练AI模型,成功合成出个性化的声音,使其听起来像患者本人的声音。

实验结果表明,新的脑机接口系统能够以1/40秒的延迟将神经信号转化为语音输出。这一延时接近人类自然说话时听到自己声音的时间差。而且,患者利用这一系统合成的语音基本是可理解的:在测试中,听众平均能正确识别出近60%的单词,而患者在未使用脑机接口系统时,语音识别率仅为4%。

在进一步实验中,研究团队发现新系统能识别出患者是想表达疑问句还是陈述句,并据此自动调整语调。它还能判断他在句中强调了哪个词,并在语音中体现出来。

这样的结果意味着,新系统帮助患者真正实现了一个几乎没有可察觉延迟的、“脑到声音”的数字声道,可以在他试图说话的瞬间,就将其脑活动直接转化为语音了。

临床试验的希望

这项研究给那些想说话却无法发声的人带来了新的希望,这项技术有望彻底改变他们的交流方式。这是一种范式的转变,为现实生活中的语言辅助工具铺平了道路。

不过,研究团队也指出,目前这种“神经语音假体”仍处于早期阶段。由于这次研究只在一名ALS患者身上完成,下一步的关键将在于能否在更多患者中实现类似效果,比如那些因中风等其他原因而失语的人群。

#参考来源:

https://health.ucdavis.edu/news/headlines/first-of-its-kind-technology-helps-man-with-als-speak-in-real-time/2025/06

https://www.nature.com/articles/d41586-025-01818-1

#图片来源:

封面图&首图:UC Davis

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnYgZntwNDBj80MHRE-G1u0Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券