通往量子霸权之路：谷歌用强化学习优化量子门控制策略

文章来源：企鹅号 - 机器之心

选自谷歌博客

作者：Murphy Yuezhen Niu、Sergio Boixo

机器之心编译

量子计算机有很多独特的优势，例如上次世界第一超算要算 1 万年的问题，量子计算机3 分 20 秒就可以完成。然而，量子计算机需要严格控制容错、信息丢失等误差，这些误差极其复杂，很难手动模拟排除，那么我们为什么不用机器学习来学习并控制它们呢？近日谷歌的研究者就提出了用深度强化学习极大提升量子计算的性能。

不久前，机器之心曾报道了谷歌的量子霸权论文。实现强大的量子计算必不可少的就是对量子进行门控制，以此来保证去除干扰的量子状态，保证正确的量子信息能够精确快速地通过控制门。

量子霸权电路的控制操作。a. 实验中使用的量子电路示例；b. 单量子比特和双量子比特门的控制信号波形图。

以往而言，控制量子的门算法往往不能达到量子计算机需要的精确度和速度要求，而谷歌这回采用了新的机器学习方法，在门控制的精确度和速度上有了数量级的提升。

近来，强化学习在控制优化问题上显示出很好的效果。强化学习可以从噪声控制轨迹中提炼非局部规律（non-local regularities），并在多种任务中进行迁移。为了将这些优势应用于量子控制优化问题上，谷歌的研究者提出了一种新的控制框架，可以同时优化量子计算的速度和精准性，用于弥补泄露和随机控制错误带来的问题。

和随机梯度下降的基线方法进行对比中，研究者提出的方法实现了两个数量级的平均门错误数降低，以及一个数量级的优化门同步时间降低。研究者认为，这种结合了物理发现和最新机器学习方法的研究可以推动量子模拟、量子化学，乃至使用近期量子设备测试量子霸权方面的研究。

实现近期量子计算机的最主要挑战就是其最基本的组成部分：量子比特。量子比特可以和任意携带能量、且足够近的物体进行相互作用，即 stray 光量子（例如不必要的电磁场）、声子（量子设备的机械震荡）、或者量子缺陷（制造过程中形成的芯片基片不规则性），这些都可能造成量子比特状态无法预测的改变。

更复杂的问题是，用来控制量子比特的工具也会带来很多挑战。操作和读取量子比特是通过经典物理控制完成的，也就是通过将电磁场形式的模拟信号耦合到嵌入量子比特的物理基片上，例如超导回路等。这些电子控制的缺点是会产生白噪声，此外对于来自外部辐射源的干扰以及数模转换器，它们甚至会引入更多的随机误差，从而降低量子回路的性能。

为了提升量子计算机的计算能力，铺平通往大规模量子计算的道路，很有必要先建立一个物理模型以准确地描述这些实验问题。

谷歌和 MIT 的研究者发表了一篇名为「Universal Quantum Control through Deep Reinforcement Learning」的论文，该论文已经发表在 Nature NPJ Quantum Information 在线子刊上。研究者展示了一种使用深度强化学习生成的新型量子控制框架，它可以通过单个控制成本函数封装量子控制最优化中的各种实际问题。

相比标准的随机梯度下降，研究者的这个框架平均将量子逻辑门误差降低了两个数量级，并且显著降低了最优门控合成的门控时间。研究者的结果都是使用近期量子设备获得的，它为量子模拟、量子化学、量子霸权提供了广阔的应用空间。

这种新型量子控制范式的新颖性在于，量子控制函数的发展与基于深度强化学习的高效最优化方法。要构建一个全面的成本函数，那么我们首先需要为现实量子控制过程开发一个物理模型，我们可以通过该模型可靠地预测误差量。量子计算准确性最困难的错误在于量子泄露，即在计算过程中丢失的量子信息总量。

这种信息信息泄露通常发生在量子比特的量子态被激发到较高能级，或者通过自发辐射衰减到较低能级状态时。泄露造成的误差不仅会丢失有用的量子信息，它们同样还会降低「量子性」，并最终使量子计算机的性能降低到经典计算机水平。

在量子计算过程中准确评估泄露信息的常见方法是模拟整个计算，但这并不利于构建大规模量子计算机，因为量子计算的优势在于它能执行经典系统不能很好执行的计算。通过改进物理建模，研究者的通用损失函数能针对累计的泄露误差、违反控制边界条件、总门控时间和门控保真度进行联合优化。

有了新的量子控制损失函数，下一步是用一种高效的优化工具来降低损失。现有的优化方法无法兼顾寻找高度精准的策略同时保证对控制中的波动鲁棒。为了解决这一问题，研究者采用了 on-policy 深度强化学习的方法。这一方法在各种基准测试上都表现很好，对于样本噪声有天生的鲁棒性，同时也可以优化硬控制问题，即使有百万级别的参数量。

和以往的 off-policy 强化学习不同，on-policy 强化学习中控制策略和控制损失是彼此独立的。off-policy 类型的强化学习，如 Q-learning，则使用单一的神经网络表示控制轨迹和对应的奖励。在量子计算中，控制轨迹对应的控制信号和成对的量子有着不同的时间步，而奖励则用于评价当前步的量子控制方法怎么样。

on-policy 强化学习具有能够从非局部特征中提取控制轨迹的能力，在控制方式为高维，且和很多非全局策略结合在一起时，这种能力格外重要。

研究者将控制轨迹编码为一个三层的全连接神经网络，称之为策略网络，并将控制损失函数编码为第二个神经网络，即价值网络。价值网络用于编码未来奖励。鲁棒性的控制策略是通过强化学习习得的，在训练中两个网络都会使用随机环境进行学习，模仿了真实环境下的噪声状态、研究者提供了一系列用于控制 two-qubit 量子门的连续参数，他们对量子的化学应用很重要，但是使用传统的通用门控设置成本很大。

在这一新框架下，研究人员提出的这种算法减少了 100 倍的量子门错误。

优化量子控制机制和高斯控制噪声方差方法（红色线）在量子门 N (2.2, 2.2, π/2) 下的平均精确度对比。其中蓝色为增加了训练环境噪声的结果，绿色则没有噪声。小图 a：有无噪声情况下的精确度对比放大图。小图 b：噪声增大时，精确度的方差值增长情况。

谷歌的这一工作说明，使用机器学习工具和近周期量子算法可以提升灵活性，并为通用量子控制机制提供额外的计算能力。当然，作者也承认，他们需要进行更多的实验，以便将机器学习更好地融入到实用的量子计算流程中，用于全面提升其计算能力。

本文为机器之心编译，转载请联系本公众号获得授权。

------------------------------------------------

发表于: 2019-10-042019-10-04 12:20:55
原文链接：https://kuaibao.qq.com/s/20191004A07VGD00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

通往量子霸权之路：谷歌用强化学习优化量子门控制策略

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐