前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享

如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享

作者头像
机器之心
发布2023-09-08 10:48:21
2330
发布2023-09-08 10:48:21
举报
文章被收录于专栏:机器之心

人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激,这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。

视觉神经编码指的是将外部视觉刺激拟合成神经活动信号的过程。视觉神经解码则是要找到一个从神经信号到对应视觉刺激的映射,这是一项充满意义和挑战的工作,根据解码难度和目标的不同可以划分为刺激分类、刺激检索与刺激重建。其中,刺激重建旨在将人脑的神经活动转化为人类可理解的图像或视频,以实现对思维和感知的破译,其方法是直接通过给定的 fMRI(功能性磁共振成像)信号生成图像,并且要求其形状、位置、朝向等细节与对应刺激图像对齐。

之前的一些研究在手写数字、字母、人脸等简单视觉刺激的解码重建方面取得了一定的进展,但是其重建结果在位置、朝向等结构信息上不可控、且缺乏明确的语义信息,难以辨别。

近期,借助多模态预训练大模型(如 CLIP)与生成能力更强的 AI 模型(如 Stable Diffusion),中国科学院自动化研究所的的脑信息解码工作得到了语义明确且与原图更接近的重建图像。

具体来说,他们收集了「脑-图-文」三模态数据集,并将大脑、视觉和语言知识相结合,通过多模态变分自编码(VAE)学习的方式,首次实现了从人类脑活动记录中零样本地解码视觉新类别,相关论文已发表在人工智能领域顶级期刊 IEEE TPAMI(参见《TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型》)。

研究表明,人类对视觉刺激的感知和识别受到视觉特征和人们先前经验的影响。当我们看到一个熟悉的物体时,我们的大脑会自然而然地检索与该物体相关的知识。比如当我们看到大象的图片时,会自然地在脑海中检索到大象的相关知识(如长长的鼻子、长长的牙齿、大大耳朵等)。此时,大象的概念会在大脑中以视觉和语言的形式进行编码(双重编码),其中语言作为一种有效的先前经验,有助于塑造由视觉产生的表征。因此,作者认为想要更好地解码记录到的脑信号,不仅应该使用实际呈现的视觉语义特征,还应该包括与该视觉目标对象相关的更丰富的语言语义特征的组合来进行解码。

中国科学院自动化研究所研究人员提出的 「脑 - 图 - 文」三模态联合学习框架,简称 BraVL。

此外,他们还借助 Stable Diffusion 和 CLIP 新提出了一种基于扩散模型的两阶段图像重建模型 MindDiffuser,相关论文已被国际多媒体大会 ACM MM 2023 接收(参见《扩散模型「读脑术」,自动化所 MindDiffuser 清晰重建人脑视觉画面 》)。

这些研究结果表明了一些有趣的结论和认知洞见:

  • 从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;
  • 使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好;
  • 视觉感知可能伴随着语言影响来表示视觉刺激的语义;
  • 该研究取得了目前最优的图像重建结果。

参考链接:

TPAMI 论文地址:https://ieeexplore.ieee.org/document/10089190

TPAMI 代码地址:https://github.com/ChangdeDu/BraVL

“脑-图-文” 三模态数据地址:https://figshare.com/articles/dataset/BraVL/17024591

MindDiffuser 论文地址:https://arxiv.org/pdf/2308.04249.pdf

MindDiffuser 代码地址:https://github.com/ReedOnePeck/MindDiffuser

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档