Nature Medicine：经颅交流电刺激可以改善强迫症

用户1279583

发布于 2021-02-24 16:27:10

1K0

发布于 2021-02-24 16:27:10

1 引言

强迫症行为在普通人群中非常普遍，对个体造成极大的痛苦。目前对强迫症的治疗结果令人失望，并伴随着副作用。通过非侵入性的神经调节(例如，经颅交流电刺激，tACS)，可以进行个性化干预。

强迫症被认为是不适应的习惯学习的结果，参与重复执行习得行为的额叶纹状体网络异常。之前的研究将这些行为与过度的习惯学习联系在一起，作为强化学习过程中的奖励功能，内侧眶额叶皮质(OFC)和腹侧纹状体之间存在异常连接。另一个工作提出了奖励学习过程中同一网络中功能相关的振荡活动。通过脑磁图和脑电图，发现新奇的、意想不到的或不可能的奖励，引起额叶活动在高β-低γ频率范围内增强(20-35Hz，图1)，被认为是源自OFC的激励价值信号，被传递到腹侧纹状体。在奖赏过程中，OFC对这些节律的调节可能会影响学习机制，促进习惯行为的转变，从而使强迫行为正常化。

【习得行为（learned behavior）是指从个体经验中获得的行为改变或特别的行为模式。与“非习得行为”相对。高等动物许多行为的改变或行为模式均在其后天经验中习得。需以本能为基础。】

图1 β-γ活动奖赏学习环路的整合模型。箭头显示奖赏回路和学习回路组成的解剖关系。海马(Hipp)、伏隔核(NAcc)、腹侧被盖区(VTA)、眶额皮质(OFC)、腹内侧前额叶皮层(vmPFC)，黑质(SN)、腹侧纹状体(VS)、杏仁核(Amy)、背侧前扣带皮层(dACC)、丘脑(Th)、腹侧苍白球（VP）。

通过两个实验，我们使用个性化、非侵入性、高清晰度的tACS(HD-tACS)来确定OFC中β-γ节律在奖励学习中的贡献，并检验其在治疗强迫症方面的潜力。首先(实验1)，证明β-γ神经调节选择性地影响奖赏引导的学习，而不是惩罚引导的学习。我们确定了执行强化学习任务与奖赏相关的β-γ频率有关，并在任务期间使用HD-tACS来调节OFC中的节律。此外，考虑到β和γ用来将奖励与之前的事件相对应，它们可能会促进向习惯性行为的转变。然而，与奖励相关的β-γ活动也与前额叶多巴胺有关，进而与探索性决策相关。我们使用强化学习模型研究β-γ神经调节过程中的候选计算机制。第二(实验2)，我们对非临床被试的OFC进行5天以上的慢性β-γ调节，与实验1类似，在被试执行强化学习任务前确定个性化的神经调节频率，实验持续3个月。最后，为了确定共同的潜在机制，研究神经调节与β-γ振荡的关系，如何诱导奖励学习和强迫症状的变化。

为了检验β-γ节律在奖励学习中的作用，在实验1中使用了双盲、假刺激，使用货币强化学习任务(图2A)。60名被试被随机分配到被动假刺激组、主动控制组(α，10 Hz)或个性化β-γ组(平均26.6 Hz ± 3.3 s.d.)。个性化的β-γ频率是通过实验前的脑电图来确定的，同时被试学会了将刺激与金钱奖励和损失联系起来。通过电场建模确定靶点OFC(图2B)。所有被试在调节前、调节期间和调节后执行30分钟的任务，并分别分析他们在每个阶段的选择行为以进行奖励和惩罚。

图2 货币强化学习任务和神经调节方案。

(a)被试从两个抽象的视觉刺激中选择一个，然后观察结果。

(b)个性化的神经调节方案和皮层表面三维重建的电流模型。图中显示了每个电极的位置和电流强度值。

2 方法和流程

被试。共有128名被试(实验1共60人，实验2共68人)签署了波士顿大学机构审查委员会批准的知情同意书，并获得了报酬。在实验1中，对所有60名被试的数据进行分析。对于实验2，我们选定了一个反映了OCI-R样本，用于相关性分析，并确定β-γ干预对不同强迫症严重程度的人的影响。为此，我们寻求OCI-R低分和高分的相对平均分布。招募了34名OCI-R得分相对较低的被试和34名OCI-R得分相对较高的被试。四名被试没有后续随访记录，最后有64名被试，包括30名低分者，34名高分者。

所有被试报告没有头部金属植入，没有植入电子设备，没有神经问题或头部损伤史，没有皮肤敏感，没有幽闭恐惧症，没有怀孕，没有Axis I精神障碍史，目前没有使用精神活性药物，过去6个月没有药物滥用或依赖，色觉正常，视力正常或矫正后正常，在他们参与研究期间没有参加任何其他研究或治疗研究。

刺激方案

实验1是一项随机、被试间、双盲研究，采用被动和主动控制，并在被试内部进行前后测量。60名被试被随机分配到被动假刺激组、主动控制组(α，10 Hz)或个性化β-γ组(平均26.6 Hz±3.3 s.d.)。采用协变量自适应随机化方法，使得每组性别和年龄均衡。除HD-tACS方案(被动假刺激、主动控制/α或个性化β-γ；图2)外，每个实验组的所有程序都是相同的。对α频段进行HD-tACS的主动控制，是为了最大限度地减少与外周共刺激相关的潜在混杂效应，并测试HD-tACS效应的频率特异性。对于每个实验组，任务执行的持续时间为90分钟，包括三个连续的周期(调节前、调节、后调节；每个周期30分钟)，在此期间，被试执行了一项经典的货币强化学习任务(图2A)。调节前会测试基线水平，调节后周期使得能够进行事后比较，评估练习效果，并检查调节效果的持续时间。

实验2是一项随机、被试间、双盲研究，使用主动控制程序(α)和前后、被试内测量。64名被试被随机分配到主动控制组(α，10 Hz)或个性化β-γ组(平均27.1 Hz±3.6 s.d.)。除调节频率外，实验组之间的程序是相同的。除了使用电场建模和HD-tACS来聚焦刺激区，减少不必要的周边共刺激。所有被试都完成了基线调节前OCI-R评估，然后连续5天进行α或β-γ频段的HD-tACS(每天30分钟)。第五天，在神经调节之后，被试进行调节后的OCI-R评估，在干预后的1个月、2个月和3个月进行了三次较长期的调节后OCI-R评估。

实验任务。在实验1中，对经过充分验证的货币强化学习任务(图2A)进行了三次实验(调节前、调节、后调节)，使用Psychtoolbox编写程序。每次大约30分钟，包含3个run，每一个run都有新的刺激对，共80个trail(40次奖励，40次惩罚)。每个实验都从注视(500ms)开始，然后在注视的左侧和右侧呈现两种新的视觉刺激(2500ms)。被试被指示在刺激之间进行选择，以最大化回报。在手持游戏手柄上按下按钮进行选择时，所选刺激(500ms)周围会出现一个红色圆圈，随机的刺激间隔(500-1500ms)之后，呈现反馈(2500ms)。每对刺激与一对结果相关(在奖励实验中，两个结果为+10美元或0美元，在惩罚实验中为-10美元或0美元)。奖惩实验在一个run中随机交错进行。为了最大限度地提高回报，被试需要通过反复实验来了解刺激结果的偶然性。被试被告知，他们从随机选择的实验中获得的将是他们的被试费，但实际上所有被试都得到了相同的固定金额。

临床仪器。实验2采用OCI-R量表对被试的强迫症进行评估。问卷由18个条目组成，包括6个子量表，已在临床样本、非临床样本和组合样本中得到验证。总分是所有18个项目的总分。患有强迫症的人通常得分为21分或更高的25分。

HD-tACS。交流电刺激使用九通道高清晰度经颅电流刺激器(Soterix Medical)进行。使用了8个12毫米直径的Ag-AgCl电极，附着在定制的塑料支架上，填充导电凝胶，并嵌入BrainCap(Brain Vision)脑电帽中。使用HD-Explore和HD-Targets(Soterix Medical)的电场建模可指导电极放置位置，靶点是双侧OFC内侧区域。图2B显示了调节参数，包括电极数量、电极位置和电流强度值。以被试个性化的β-γ频率或10Hz施加双极正弦交流电流。调节强度(峰峰值)设置为1.8 mA。

控制程序。首先，这两个实验都是被试间设计，以最大限度地减少学习和跨条件转移效果。其次，在两个实验中，每个调节组都实施了被试内、调节前和调节后的评估，以减少随机噪声，如与被试差异有关的混杂效应。除了被试间设计提供的比较外，增加的后评估周期使我们能够：(1)检查同一组被试中每种调节类型随时间的影响；(2)评估不同组被试的基线任务表现的稳定性；以及(3)确定调节效应持续多长时间。

第三，假刺激。实验1采用标准被动假刺激，遵循与主动β-γ调节相同的过程，但只持续了30秒，并在30分钟的开始和结束时上下倾斜，以模拟被试通常体验到的刺痛感。此外，实验1和实验2使用了主动控制。主动控制程序的参数与β-γ调节的参数相同，只是在相邻的频段(α，10 Hz)上施加交流电。与被动假刺激不同的是，主动控制期间的HD-tACS在整个30分钟的时间里以完全1.8 mA的强度应用于相同的皮质靶点(OFC)。主动控制有效地将与颅外组织改变、分流和外周协同刺激(如经视网膜或经皮肤刺激)相关的不良影响降至最低。

第四，我们使用了双盲程序，即第二个实验者在刺激器上设置模式(例如，主动或假)，但被试或执行数据收集的实验者不知情。

第五，我们在一个安静的、电屏蔽的房间里进行采集，以避免线路噪声干扰，并减少测试过程中被试与实验者交互的可能性。

最后，我们确认了被试对他们受到的调节类型不知情。在实验结束(实验1)或每次刺激结束(实验2)后，我们进行了安全问卷和视觉模拟量表，包括注意力、情绪、视觉、头痛、疲劳和电极下皮肤感觉的问题。这些评分在调节组之间无显著差异。此外，在实验结束时，所有被试都被问到是否能猜出他们被随机分配到了哪个调节组。

数据分析。实验前脑电频率调谐。动力系统理论预测，具有内在周期动态的系统具有更好的调节频率，当弱周期扰动的外部调节频率最接近大脑网络频率时，神经元的调节应该是最有效的。为了设计个性化的HD-tACS干预，我们确定了每个被试内源性正反馈β-γ效应的峰值频率。每个被试都完成了简短的脑电记录，同时进行了30分钟的强化学习任务。使用ActiChamp有源通道放大器以1,000 Hz(Brain Vision)采样，根据国际10-20系统从64个电极上采集EEG信号，右侧乳突电极为参考，采集的同时监测水平眼电、垂直眼电和眨眼。

左右乳突的平均值作为离线数据的参考。去除反馈开始前1000ms和反馈开始后的2000ms，以消除小波卷积引起的边缘伪影。通过视觉检查去除大的肌肉伪影，随后使用独立成分分析去除眨眼和噪音伪影。数据被转换成电流源密度(CSD)以改善定位。将每个分割的CSD-EEG时间序列与一组Morlet小波卷积计算能量，使用常数比（σf=f/7）和持续时间（6πσt）定义高斯包络，其中f为中心频率， σt=1/(2πσf)。频率范围为1-60，步长为0.5 Hz。单个trail脑电频谱分解后，提取复数向量的大小(即长度)，平方并求平均值，得到给定频率、时间点和电极的总能量。使用反馈开始前0-100ms的基线活动进行能量归一化。分析的重点是关注反馈开始后200-500ms内，电极Fz处的β-γ频段(20-35 Hz)。在个体被试的基础上提取奖惩实验之间平均总能量差最大的频率，并将其作为目标调节频率。所有的脑电处理和分析都是使用MATLAB环境下FieldTrip工具箱。

主要分析。在实验1中，每个trail被试的选择在三次run的每个block中平均，产生了每个被试、每种奖惩实验类型以及每个调节前、调节和调节后时间段的40个选择分数组成的学习曲线。在实验2中，OCI-R总分和分量表是根据Likert五点量表的项目分数相加而成的。在这两个实验中，我们考察了被试在实验前阶段的β-γ效应，即相对于惩罚反馈，奖赏反馈的β-γ能量(20-35 Hz) (反馈开始后200-500ms)在FZ电极上的变化差异，以及它与奖励最优选择行为和OCI-R总分的关系。

计算建模。使用四个模型；即，标准Q-Learning模型的两个变体(StandardQ和WeightedQ)，Actor-Critic模型，以及结合Q-Learning和Actor-Critic的混合模型。

Q-Learning模型。对于每个被试，Q-Learning算法基于他们的选择和反馈历史来计算动作(a)的预期奖励值(Q)。如果一个trail（t）中的某个动作a的期望奖励值为Q(a，t)，则按照以下规则计算t+1次trail同一动作的预期奖励值：

其中ɑo表示学习速率，范围在0到1之间，0表示没有影响，1表示最大影响。δ(t)表示预测误差，如下所示：

我们使用了Q-Learning算法的两种变体。在标准Q变量中，正反馈的outcome(t)设置为1，中性反馈的outcome(t)设置为0，负反馈的outcome(t)设置为-1。在WeightedQ变体中，使用一个额外的自由参数d，允许对正面反馈和负面反馈进行不同的加权。outcome(t)被设置为1-d(正反馈)、0(中性反馈)和-d(负反馈)。在这两种变体中，期望值(Q)在每次运行开始时都设置为0。

当在给定实验t中的两个动作a1和a2之间进行选择时，两个模型都使用如上所述的选择和反馈历史来计算每个动作Q(a1，t)和Q(a2，t)的预期奖励值。使用这些期望值，使用以下规则计算在该实验中选择动作a1的概率：

这里，参数β表示选择过程中的噪声或温度，β值越高，表明选择过程中的随机性越大，对预期奖励值的敏感度越低。较低的β值意味着更倾向于选择预期回报较大的刺激方案。

Actor-Critic模型。每对刺激被表示为一个状态s，在给定的实验t中与该状态相关联的期望值被表示为V(s，t)，使用预测误差ε(t)进行更新，如下所示：

其中ɑC表示Critic的学习率，根据预测误差确定状态值被更新的程度。与WeightedQ模型类似，正反馈的outcome(t)被设置为1−d，中性反馈的为0，负反馈为−d。

Actor根据权重w(s，a，t)选择。所选的权重使用来自Crtitic模块ε(t)的预测误差进行调整，其规则如下：

其中ɑA是Actor的学习率，用于确定预测误差对权重的影响程度。我们使用被试权重的绝对值之和来归一化，以避免无界增长，并将权重初始化为0.01。例如，给定两个可能的动作a1和a2，分别反映对刺激1或刺激2的选择，动作1的Acotr权重被归一化：

使用这些权重，使用以下规则确定在实验t中选择a1的概率：

其中，β参数反映选择期间的温度或探索程度。

Actor-Critic混合Q-Learning模型。反映了基于模型的学习机制和非模型学习机制之间的交互作用。使用混合参数c将WeightedQ模型中每个动作的期望值与Actor-Critic模型中每个动作的权重组合在一起，c反映每个模型的独立贡献：

c的范围从0到1时，模型从Actor-Critic模型过渡到WeightedQ模型。然后使用以下概率选择动作a1：

参数估计。利用matlab函数fmincon的极大似然估计，对StandardQ模型(ɑ，β)中的两个参数、WeightedQ模型中的三个参数(ɑo，β，d)、Actor-Critic模型中的四个参数(ɑC，ɑA，β，d)和混合模型中的六个参数(ɑo，ɑC，ɑA，β，d，c)进行了优化。对这些参数进行了估计，以使奖励实验的实际选择概率最大化。

统计。在实验1中，我们使用被试内时间因素(调节前、后)和效价因素(奖赏、惩罚)以及被试间因素(被动假刺激、主动控制/α、个性化β-γ)进行重复测量，以评估最优的选择。对参数的分析使用了被试内时间因素(调节前、后)和被试间因素(被动假刺激、主动控制/α、个性化β-γ)。为了检验奖励引导的最优选择行为与奖励反馈β-γ效应之间的关系，我们对实验前奖励反馈的平均脑电β-γ能量与调节前最优选择准确率，和调节组别（假刺激、主动控制/α、个性化β-γ）之间进行了双尾Pearson相关。采用双尾Pearson相关检验β-γ组在调节前和调节期间，奖励最优选择行为之间的关系。

在实验2中，使用被试内时间因素(调节前、第5天、1个月、2个月、3个月)和被试间因素(主动控制/α、个性化β-γ)对OCI-R总分和子量表得分进行重复测量。用Bonferroni校正的成对比较进行分析。使用调整后的P值(P=0.0008)控制多重比较，进行双尾Pearson相关，分析调节前基线和调节后OCI-R评分之间的关系。为了分析基线OCI-R总分与实验前奖励选择行为之间的关系，使用OCI-R得分作为被试间因素(低与高)进行方差检验。用Pearson相关(双尾)分析个体被试实验前奖励选择行为与基线OCI-R总分之间的关系。为了比较基线OCI-R总分高和低的个体的脑电β-γ效应，使用被试内效价因素(奖惩)和被试间OCI-R得分因素(低和高)进行方差分析，使用Greenhouse–Geisser epsilon校正P值，及球形检验。为了便于研究之间的比较和复制，估计了效应量大小。除了F检验是单尾外，所有的检验都是双尾的。

如果您对脑电等数据处理感兴趣，欢迎浏览思影科技课程及服务。（可添加微信号siyingyxf或18983979082咨询）：

第十二届脑电数据处理入门班（南京，3.19-24）

第八届脑电信号数据处理提高班（南京，3.29-4.3)

第二届脑电机器学习数据处理班（南京，4.6-11）

更新通知：第九届眼动数据处理班（上海，4.6-11）

第二十五届脑电数据处理中级班（上海，3.17-22）

第十一届近红外脑功能数据处理班（上海，4.13-18)

第二十六届脑电数据处理中级班（重庆，4.9-14)

思影科技EEG/ERP数据处理业务

思影科技脑电机器学习数据处理业务

思影数据处理服务五：近红外脑功能数据处理

思影数据处理服务六：脑磁图（MEG）数据处理

思影科技眼动数据处理服务

BIOSEMI脑电系统介绍

3 结果

调节组(假刺激、α、β-γ)、效价类型(奖/惩)和时间(调节前、调节后)有显著交互效应(图3)。β-γ与假刺激，β-γ与α，存在选择行为上的差异，但α与假刺激没有差异，表明β-γ调节改变了行为，还发现β-γ组在奖励实验期间的行为明显受损，在惩罚实验上没有差异。在β-γ组，奖励实验中的选择行为在调节期间相对于调节前显著受损，但在调节后时期恢复 (图3C)。随着时间的推移，在惩罚实验上没有观察到差异。α组和假刺激组的分析显示，奖惩实验随时间的推移没有任何差异。综上所述，这些结果表明，对OFC进行频率个性化的β-γ神经调节能以一种快速和可逆的方式对奖赏学习过程中的选择行为产生强烈的、效价类型特定的影响。

图3 实验一货币强化学习任务的结果。在三个时期（调节前、中、后）观察到奖励(蓝色)和惩罚(黄色)的最佳行为选择结果。(a)假刺激、(b)主动控制/ α、(c)个体化β-γ。

接下来，使用强化学习模型来确定奖赏学习过程中β-γ神经调节对计算机制的影响。我们将这些模型与每个被试在奖励实验期间的选择行为相匹配。使用了四个模型：标准Q-Learning算法(StandardQ)；具有允许正负结果不同加权的自由参数的标准Q-Learning算法(WeightedQ)；Actor-Critic算法；以及Q-Learning和Actor-Critic的融合模型(Hybrid)。跨被试和条件的Akaike信息标准显示Actor-Critic模型拟合效果最好，或信息损失最少。Actor-Critic模型参数的重复测量方差分析(ANOVA) 【被试内因素(调节前、中、后) x 被试间因素(假、α、β-γ)】显示，参数β存在显著的交互作用。随后的分析显示，β-γ与α、β-γ与假刺激有显著差异，但α与假刺激没有差异。交互作用是由调节期间参数β升高驱动的，一旦调节停止，参数β会迅速恢复，反映出β-γ频段下的HD-tACS对奖励选择行为的影响(图3)。其他模型参数均未显示出显著影响。综上所述，对OFC的β-γ频段神经调节增加了探索性倾向，可能是通过在参与选择的神经计算中增加决策噪音或不确定性，严重削弱了奖励引导的选择行为。

确定β-γ频段下对OFC进行HD-tACS可以调节奖赏学习之后，我们检验了它对强迫行为的影响。在实验2中，采用了被试间、双盲、主动-假刺激设计。对64名强迫症患者进行了研究。对于每个被试，在执行学习任务的简化版本时采集脑电，确定个体化对奖赏敏感的β-γ频率。被试被分配到个性化β-γ组(平均27.1 Hz±3.6 s.d.)或主动α(10 Hz)调节控制组。HD-tACS以OFC内侧为靶点，每天30min，连续5天。我们使用Obsessive–Compulsive Inventory-Revised (OCI-R)对强迫症行为进行量化。在第一天进行HD-tACS前进行基线测量，随后，刺激的第5天(HD-tACS最后一天)、刺激后1个月、2个月、3个月进行随访测量。

β-γ调节促进了强迫症长时间的改善。在OCI-R总分中观察到显著的群体×时间交互作用。在β-γ组，经Bonferroni校正的两两比较显示，调节前基线和所有调节后时期(图4A，左图)OCI-R显著降低。平均而言，OCI-R总分在3个月内下降了近28%。α组的OCI-R评分没有明显变化。

图4 实验二HD-tACS刺激后强迫症的变化。

(a) 每个调节组和时间点的平均OCI-R总分(左图)和平均OCI-R分量表得分(右图)，显示95%置信区间。

(b)对每次调节和每个调制组，在调节前得到的OCI-R总分的散点图，显示调节引起的OCI-R变化(即基线减去调节后的得分)。

β-γ调节选择性地改善了几个与强迫症相关的OCI-R子量表(图4A，右图)。囤积、排序和强迫行为存在显著的群体×时间交互作用。在β-γ组中，观察到刺激时期主效应，后续的Bonferroni校正的两两比较显示，到干预的最后一天，OCI-R的囤积和排序量表得分迅速降低，持续到干预后3个月。α组没有表现出刺激时期的主效应，也没有与基线相关的任何时间点的成对差异。

基线OCI-R得分较高的被试在β-γ调节后强迫症行为减少的幅度更大。在β-γ组中，基线OCI-R总分和每个调节后时间点的得分变化之间进行相关性分析。经过多重比较校正后，在每个时间点都发现了显著的相关性，表明基线评分较高的个体HD-tACS改善最大(图4B)。相反，在基线时OCI-R得分相对较低的个体没有变化或者在反复β-γ调节后症状略有增加。然而，得分低的被试的数量是少数的，绝大多数被试有调节诱导的改善。

除了OCI-R总评分外，基线时的子量表评分还可以预测不同时间点调节诱导的改善。多重比较校正后，在四个调节后时间点中至少存在三个显著相关性的是囤积、检查、排序和洗涤。相比之下，主动控制/α组没有达到显著性水平，从而证实了β-γ范围内的改善是频率特异性的。

在这两个实验中，我们观察到奖赏学习的损害和由于β-γ OFC调节而导致的强迫症的减少。接下来设计了一系列互补性分析，以证实奖赏学习和强迫行为的变化彼此相关，并与OFC的β-γ神经生理学有类似的关联。如果强迫症行为是由不适应的习惯学习引起的，那么强迫症特征越严重的个体在奖励实验中应该有更高的最优选择行为。为了验证这一预测，我们将实验2中的被试根据他们的基线OCI-R得分(低分和高分)分成两组，并分析了他们在简化的实验前强化学习任务中的奖励选择行为。高OCI-R组的行为准确性显著高于低OCI-R组。逐步回归分析显示，奖励选择行为高的个体也是OCI-R得分高的个体。

接下来，我们考察了相对于惩罚反馈，在奖励反馈中奖赏选择行为与β-γ能量变化之间的关系。在实验一中，我们计算了实验前的β-γ效应，与调节前期的选择行为存在显著的负相关，表明在奖励实验中，对奖励反馈表现出较小β-γ效应的个体总是做出更好的选择。

最优奖励选择行为与较小的β-γ效应(实验1)和较高的强迫症严重程度(实验2)有关。这意味着OCI-R得分较高的个体在实验前的脑电中应该表现出较小的β-γ效应。方差检验【被试内(奖、惩) x 被试间(OCI-R得分高、低)】结果显示存在显著的交互作用。高OCI-R组没有表现出β-γ效应，与预测一致。相比之下，在OCI-R量表上得分相对较低的个体表现出显著的β-γ效应，因为奖励实验的β-γ能量比惩罚实验的β-γ能量增加了很多。

如前所述，强迫症越严重的个体，调节增益越强(图4B)。鉴于强迫症与奖励实验中更好的选择表现相关，在基线水平具有更优奖励选择行为的个体在β-γ神经调节期间应该会经历更强的损伤。在实验1中，β-γ组被试在调节前和调节期间的奖励选择行为之间存在显著的负相关。总而言之，两个实验建立了神经调节的平行效应，表明收敛机制（convergent mechanisms）是通过β-γ神经调节奖励引导的选择行为和强迫行为的基础。

β-γ范围内的活动被认为是奖赏学习过程中额叶和纹状体区域耦合的关键机制。这些节律被认为是在奖励网络内传递激励价值信号(图1)。本研究发现，在OFC中调节这些节律会导致最优选择行为的损害，而不是增强。如果同时调节OFC和腹侧纹状体，β-γ节律在学习中的促进作用仍然可能出现。对于同步的神经环路，单个节点的神经调节可能不足以提供改善。开发基于时间干扰的皮质下神经调节，结合使用HD-tACS的OFC调节，可能是检验这一可能性的关键。另一种可能性是，神经调节可能已经使得OFC中的β-γ活动饱和了，不会给奖励诱导的行为适应调节留下多少空间。还需要更多的工作来检验这些假说，我们对受损的选择行为的观察与另一个考虑到多巴胺回路在前额叶皮层中的作用的观点一致。通过强化学习模型对选择行为的考察支持了这一观点。使用Actor-Critic模型，当被试接受β-γ神经调节时，在决策过程中检测到探索的增加。可能是β-γ神经调节增加了OFC的局部β-γ活动，降低了多巴胺水平，从而增加了探索行为。这些调节可能伴随着额叶纹状体连通性和纹状体多巴胺水平的变化。未来的神经调节研究需要与电生理学和神经成像同时进行，以检验这些神经过程在奖赏引导的选择行为中可能受到β-γ调节的影响。

强迫行为被描述为学习习惯失调的结果。为了支持这些理论，我们通过内侧OFC长期施加个性化β-γ频率的HD-tACS，，至少在3个月内可以减少强迫行为。慢性OFC神经调节恢复了额叶-纹状体连接功能障碍。通过同时进行神经调节和神经成像可以更好地检验这些预测。目前，我们的结果为OFC参与人类强迫行为提供了因果证据，神经调节的频率特异性效应为改善症状提供了神经生理学基础。个性化的神经调节可利用大脑的神经可塑性，通过施加HD-tACS产生长期效果。

总结：本文使用经颅交流电刺激，结合脑电分析，以内侧眶额叶皮质(OFC)为靶点，首先证明了执行强化学习任务与奖赏相关的β-γ频率有关。进而对非临床被试的OFC进行5天以上的慢性个性化β-γ调节，初步确定了β-γ调节可以促进了强迫症长达3个月的改善，为进一步研究个性化神经调节作为临床强迫症和其他额纹状体功能障碍的提供了动力。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2021-02-06，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习