首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

将思想转化为图像 ——DreamDiffusion 如何从大脑信号生成图像

生成式人工智能不仅仅是生成文本或媒体等创意内容。它还在科学、医学和农业等领域取得了进步。

最近更有趣的发现之一是将大型语言模型与大脑扫描相结合的能力,本质上称为思想到图像技术。

测量大脑活动意味着什么?

大脑由数十亿个称为神经元的细胞组成。神经元通过突触相互交流,突触是神经元之间的连接。

每当神经元被激活时,它就会产生沿着细胞传播的电流。

测量大脑活动的方法有很多种,但其中一种更流行的方法称为脑电图(EEG),它包括使用传感器(称为电极的小金属盘)来监测头部周围多个位置的信号。

您可能已经看过类似这样的脑电图设备的图片……

但想要测量脑电波的目的是什么?

脑电图有助于诊断和监测神经系统疾病,例如癫痫、睡眠障碍或脑肿瘤。传感器可以检测可能表明医疗状况的异常模式。

脑电图设备现在可以作为耳机或滑盖使用,这使得患者可以轻松地自行使用。

我自己以前也用过 CPAP 来监测我的睡眠行为,发现我患有睡眠呼吸暂停,所以现在我在晚上睡觉时使用 CPAP。

脑电图耳机还可用于神经反馈,这是生物反馈的一种形式,使个人能够调节脑电波。这种方法经常被用作治疗焦虑、多动症等疾病的方法。

脑电图头盔最近变得有些时尚,它们易于使用、方便、便携、无线。

脑电波和计算机视觉

在理解计算机视觉模型和人类视觉系统之间的关系方面已经有一些有趣的研究。

大阪大学前沿生物科学研究生院和日本 NICT 的 CiNet 的研究人员正在使用扩散模型(更具体地说,稳定扩散)从功能磁共振成像数据重建视觉体验。

测试的目的是确定他们是否可以使用稳定扩散(一种人工智能生成变压器)来重建受试者观察到的内容。

然而, fMRI(功能性磁共振成像或功能性MRI )的问题在于,它需要昂贵的MRI机器才能运行,更不用说专门的操作员了,因此及时取得进展并不实用。

如果使用脑电图信号可以实现类似的过程,那么研究人员进行实验和研究就会变得更加容易。

而这正是正在发生的事情。

梦境扩散

清华深圳国际研究生院、腾讯人工智能实验室、鹏程实验室发布了题为“ DreamDiffusion:从脑电图信号生成高质量图像”的新研究论文。

该论文展示了使用脑电图信号与稳定扩散相结合的令人印象深刻且准确的结果。

看下图,左边通过 GT 列的图像描绘了配对的图像数据,而右边的三幅图像代表了采样结果。

这些令人印象深刻。

DreamDiffusion 如何运作?

让我们首先了解稳定扩散如何生成图像。

当您编写文本提示时……第一步是它通过文本编码器 (CLIP) 运行,该编码器在大型图像数据集和相应的文本描述上进行训练。

文本嵌入是根据所需的文本输入创建的,捕获其含义和上下文,它们存在于所谓的潜在空间中。

然后,模型的解码器部分通过称为扩散的渲染过程将嵌入转换为类似于训练集的图像。

现在让我们从思想到图像的角度来思考这个问题。

我们不是编写文本提示,而是从一个想法开始,为此,我们不需要文本编码器,我们需要脑电图编码器。

基本上,我们需要将脑电图信号转换为嵌入。

因此,DreamDiffusion 的工作原理是在大量脑电图数据上进行训练,并且由于数据往往含有噪声,因此该模型使用了一种称为掩蔽信号预训练的方法。

掩蔽信号预训练

想象一下,您正在尝试解决一个难题,但有些部分丢失了。你必须使用你所拥有的碎片来猜测丢失的碎片可能是什么样子。

通过学习根据它可以看到的部分来预测隐藏部分可能是什么,系统可以更好地理解和解释脑电图信号。

获得嵌入后,下一步是将其与稳定扩散对齐。

对齐脑电图、文本和图像空间

实现这一点的方法是利用 CLIP 图像编码器增强 EEG 嵌入并使其兼容。

然后利用这些精致的脑电图嵌入来生成更高质量的图像。

思想对图像技术的好处和挑战

很容易想象这项技术的阴暗面。

如果脑电图耳机在大脑监测中变得流行,潜在的黑客可能会提取脑电图数据并生成视觉表示……基本上是读取某人的想法。

因此,需要考虑道德和安全因素。

但这项技术也可以为大脑健康的未来开辟一系列令人兴奋的可能性。例如…

神经科学和心理学:将思想可视化的能力可以为大脑如何处理信息提供新的见解,并可以促进我们对认知和心理健康的理解的进步。

辅助技术:对于有言语或运动障碍的人来说,思想到图像技术可以提供一种新的沟通方式。通过形象化他们的想法,他们可以表达想法或需求,而无需言语或动作。

梦境分析:如果这项技术能够得到改进,能够处理睡眠期间产生的大脑信号,那么它就有可能用于可视化梦境,为梦境的研究和解释提供一种新工具。

人机交互

当我们进入空间计算和 3 维交互时,这项技术有一些有趣的可能性需要考虑。

如果未来的 XR 耳机包含脑电图传感器,如果我们能够仅用我们的思想来生成世界和故事会怎样?

这开启了各种有趣的“创造性”用例,使用思想作为界面控制器。

最后的想法

思想到图像技术可以改变我们与计算机交互的方式。脑机接口 (BCI) 的出现作为生成新内容或管理和监测大脑健康的一种手段。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQgMg_BGuL32CAyBlDBmXA2w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券