为什么输出会无限期地运行，并且不会产生最终结果？(高-低博弈)

输出无限期地运行并且不会产生最终结果的原因是因为存在高-低博弈的情况。

在计算机科学中，高-低博弈是指一个问题中存在着两个或多个参与者之间的竞争关系，其中一个参与者（高级参与者）试图找到最优解决方案，而其他参与者（低级参与者）则试图阻止高级参与者达到最优解决方案。这种竞争关系导致了输出无限期地运行并且不会产生最终结果的情况。

具体来说，在一个高-低博弈的问题中，高级参与者通常会使用一系列算法和策略来尝试找到最优解决方案。然而，低级参与者会采取各种手段来干扰高级参与者的计算过程，例如通过引入随机性、增加计算复杂度、修改输入数据等方式。这种干扰导致高级参与者无法在有限时间内找到最终结果，使得输出无限期地运行。

在这种情况下，为了解决输出无限期地运行的问题，可以采取以下措施：

优化算法和策略：高级参与者可以不断改进算法和策略，以提高解决问题的效率和准确性。这包括使用更高效的数据结构、优化计算过程、减少不必要的计算等。
引入限制和规则：可以通过引入限制和规则来限制低级参与者的干扰行为。例如，可以限制低级参与者的计算资源、限制其对输入数据的修改等。
加强安全性和防护措施：高级参与者可以采取各种安全性和防护措施来抵御低级参与者的攻击和干扰。这包括使用加密算法、身份验证、防火墙等。

总之，输出无限期地运行并且不会产生最终结果的原因是高-低博弈的存在，解决这个问题需要优化算法和策略、引入限制和规则以及加强安全性和防护措施。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Akka 指南之「术语及概念」

CPU 密集型任务可能会产生类似于阻塞的行为。一般来说，最好使用异步 API，因为它们保证系统能够进行。...如果一个线程无限期地占用资源（例如意外运行无限循环），则等待该资源的其他线程将无法进行。相反，非阻塞意味着没有线程能够无限期地延迟其他线程。...由于没有其他参与者达到某种状态（一个Catch-22问题），所有受影响的子系统都无法继续运行。死锁与阻塞密切相关，因为参与者线程能够无限期地延迟其他线程的进程。...典型的场景是一个调度算法，它总是选择高优先级的任务而不是低优先级的任务。如果传入的高优先级任务的数量一直足够多，那么低优先级任务将永远不会完成。...不同之处在于，参与者不会被冻结在等待他人进展的状态中，而是不断地改变自己的状态。一个示例场景是，两个参与者有两个相同资源可用时。他们每一个都试图获得资源，但他们也会检查对方是否也需要资源。

7826 0

如果AI出“老千”，研究员该怎么设计算法？

为什么会出现这种问题，DeepMind在其最新的博客中将这种现象归纳为“规则博弈”，即虽然满足了目标所制订的规范，但没有达到设计者预期结果的情况。...所以，随着强化算法的改进，正确地指定意图对于实现预期的结果会变得更加重要。在强化学习设置中，任务规范不仅包括奖励设计，还包括训练环境和辅助奖励的选择。...2 规则博弈可能原因：奖励机制不当与泛化反馈前面也提到，出现规则博弈的一个可能原因是奖励机制设置不当，即只奖励最终结果，对AI完成任务的过程视而不见。...找到一个能够准确刻画最终结果的奖励机制，非常具有挑战性。...再举一个极端的例子，一个非常先进的人工智能系统可以劫持它所运行的计算机，并手动将它的奖励信号设置为一个高值。

3444 1

初始GAN

的本质就是 G 和 D 互相博弈并最终达到一个纳什平衡点，但这只是一个理想的情况，正常情况是容易出现一方强大另一方弱小，并且一旦这个关系形成，而没有及时找到方法平衡，那么就会出现问题了。...首先对于梯度消失的情况是D 越好，G 的梯度消失越严重，因为 G 的梯度更新来自 D，而在训练初始阶段，G 的输入是随机生成的噪声，肯定不会生成很好的图片，D 会很容易就判断出来真假样本，也就是 D 的训练几乎没有损失...3.2 为什么GAN不适合处理文本数据文本数据相比较图片数据来说是离散的，因为对于文本来说，通常需要将一个词映射为一个高维的向量，最终预测的输出是一个one-hot向量，假设 softmax 的输出是...仍然是（0， 1， 0， 0， 0， 0），所以对于生成器来说，G 输出了不同的结果, 但是 D 给出了同样的判别结果，并不能将梯度更新信息很好的传递到 G 中去，所以 D 最终输出的判别没有意义。...尽早追踪失败的原因 D 的 loss 变成 0，那么这就是训练失败了检查规范的梯度：如果超过 100，那出问题了如果训练正常，那么 D loss 有低方差并且随着时间降低如果 g loss 稳定下降

9094 0

Lambda架构的质疑

重处理’ 是指再一次处理输入数据以重新获取输出结果。这是一个显而易见但又经常被忽略的要求。代码可能会一直更改。...劣势 Lambda 架构的问题在于，在两个复杂的分布式系统中维护产生相同结果的代码会非常痛苦。我认为这个问题不会得到解决。...不可避免地针对其所运行的框架进行专门的代码编程。似乎每一个人都会认为实现 Lambda 架构会带来操作复杂性。 为什么不能对流处理系统进行改进来处理全部的问题呢？...最终，即使我们可以避免对应用程序进行两次编码，但运行和调试两个系统的操作负担也非常高。而且任何新的抽象都只能提供两个系统所支持的功能的交集。...但是，我的建议需要在输出数据库中暂时占用2倍的存储空间，并且需要一个支持大容量写入的数据库来进行重新加载。在这两种情况下，重处理的额外负载可能会平均化。

2K2 0

【重磅】AI击败顶级德扑玩家的秘密！德扑AI创造者现身reddit，全面解答34个提问，详解Libratus的现状和未来

Tuomas Sandholm：Libratus非常明显地击败了人类，而不是统计意义上误差范围内判定的结果。...Libratus使用的其实可以说是一个更高级版本的嵌套子博弈求解方案，加上了一些其他的好东西，然后最终才带来了强大的性能。 9. 提问：为什么最终没有在你的模型中实现强化学习？...所以你不能简单地计算出一个纳什均衡并且按照其给出的策略开始打牌，因为你不知道其他人是否会选择同一个均衡的策略。在双人零和博弈中，由于纳什均衡的任何线性组合都是另一个纳什均衡，所以不会出现这种情况。...关于为什么你不能只使用PIOsolver进行这种比赛有以下几个原因。（当然事先声明：我对PIOsolver的了解是相当有限的，但我会尽可能地回答我知道的部分。...并且DeepStack的挑战设立了激励机制，以便奖励差异高的方法（因为只有第一名会得到奖励）。

1.1K4 0

深度学习进阶篇：对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景

理性这个关键字，因为它是博弈论的基础。我们可以简单地把理性称为一种理解，即每个行为人都知道所有其他行为人都和他/她一样理性，拥有相同的理解和知识水平。...既然我们已经知道了理性意味着什么，让我们来看看与博弈论相关的其他一些关键词:游戏:一般来说，游戏是由一组玩家，行动/策略和最终收益组成。例如:拍卖、象棋、政治等。玩家:玩家是参与任何游戏的理性实体。...正如我们之前所讨论的，每个代理都是自私的，并且想要最大化他们的收益。2.纳什均衡纳什均衡（或者纳什平衡），Nash equilibrium ，又称为非合作博弈均衡，是人工智能博弈论方法的“基石”。...这样，G和D构成了一个动态的“博弈过程”。最后博弈的结果是什么？在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。...注意：训练初期，当G的生成效果很差时，D会以高置信度来拒绝生成样本，因为它们与训练数据明显不同。因此，log(1−D(G(z)))饱和（即为常数，梯度为0）。

9173 0

区块链共识算法之POW（1）

共识是指系统节点达成一致的过程，而分布式系统的一致性体现在三个方面: ◼ 最终性(Termination): 所有进程最终会在有限步数中结束并选取一个值, 算法不会无尽执行下去。...◼ 合法性(Validity): 输出内容是输入内容按照系统规则生成的，且输出内容合法。...◼ 没有最终性，需要检查点机制来弥补最终性，但随着确认次数的增加，达成共识的可能性也呈指数级地增长。...但在共识过程中，节点系统是封闭的，而且去中心化程度低 ◼ BFT 类的共识机制性能较高并具备良好的最终性，但其容错率低，且由于节点的扩展性问题，更加适用于相对封闭的节点系统。...安全稳定，节点自由度高2. 去中心化程度高，节点系统开放 1.扩展性弱，性能低2.没有最终性3.造成硬件设备浪费 POS 1. 能源耗费少2. 去中心化程度较高，节点系统开放 1.实现过程复杂 2.

1.9K3 0

ICML 2019之Facebook论文成果集锦

通过迭代遍历博弈树，它收敛于一个均衡。为了处理非常大型的博弈，通常在运行CFR之前进行抽象。用表状CFR求解抽象博弈，并将其解映射回完整博弈。...我们对CLEVR和SHAPES数据集的结果验证了我们的假设，表明该模型即使在低数据状态下也能获得更好的程序（和答案）预测准确度，并且允许人们探索所执行推理的一致性和一致性。...然而，重新设计用于预测单个最佳输出的标准序列预测程序倾向于产生包含非常相似序列的集合；无法捕获输出空间的变化。...此外，我们讨论了常用的集合级度量标准的权衡，并激发了一个新的集合级度量，自然地评估了“捕获输出空间中的变化”的概念。最后，我们在图像字幕任务上显示结果，发现我们的模型优于标准技术和自然消融技术。...我们提供实验来举例说明在深度学习领域的模型评估中当前常见做法的脆弱性，表明即使结果可以再现，稍微不同的实验也不会支持这些发现。

5674 0

一文览尽 Facebook ICML 2019 成果集锦

6891 0

从大脑中汲取灵感，能效提高了 1000 倍，新芯片拓展AI的可能性

即使我们可以不断扩大硬件以满足人工智能的需求，还有另一个问题：在传统计算机上运行它们会浪费大量能源。运行大型人工智能算法产生的高碳排放已经对环境有害，而且随着算法变得越来越庞大，情况只会变得更糟。...Wong 将这个过程比作闪电：当云中积聚了足够多的电荷时，它会迅速找到一条低电阻路径并发生雷击。但与路径消失的闪电不同，穿过金属氧化物的路径仍然存在，这意味着它可以无限期地保持导电。...但在 2004 年，三星电子的研究人员宣布他们已经成功地将 RRAM 内存集成在传统计算芯片之上，这表明内存计算芯片最终可能成为可能。Wong 决定至少尝试一下。...由于 NeuRRAM 存储单元是模拟的，它们存储的权重代表了设备在低电阻状态和高电阻状态之间切换时出现的所有电阻状态。...因为它在模拟编程方面具有优势，并且相对容易与传统计算材料集成。他们最近的结果代表了第一个可以运行如此庞大而复杂的 AI 算法的 RRAM 芯片——这一壮举以前只能在理论模拟中实现。

3896 0

质疑Lambda架构

实现逻辑转换两次，一次是在批处理系统，另外一次是在流处理系统，然后在查询时间将两个系统的结果混合在一起产生一个完整的响应结果。...Lambda 架构是定位建立复杂异步的需要低延迟运行的转换场合。典型案例是建设一个推荐系统，需要抓取各种数据源，处理输入，索引排序任何存储便于读取处理结果。...我也喜欢Reprocessing 重新处理数据，也就是将输入数据再计算一次输出，只要你的代码变化，你需要重新计算一下结果，以便查看代码对数据处理结果的影响。那么代码为什么会变化呢？...最终即使你可以避免两次编码。在两个系统中运行和调试代码的负担也是比较高的。...我认为那是因为人们日益迫切需要构建一个复杂的低延时的处理系统，一种是可伸缩扩展的高延迟批处理系统只能处理历史数据，而低延迟的流式处理系统并不能重复处理产生结果，通过横跨这两个系统放在一起，他们就能得到一个有效的解决方案

1.7K3 0

使用SPIN技术对LLM进行自我博弈微调训练

最终目标是开发得到一种语言模型，使其产生的反应与人类产生的反应没有区别。自我博弈自我博弈是一种算法通过对抗自身副本来学习的技术。...对手模型(旧LLM) -对手模型的任务是生成与人类产生的反应没有区别的结果。对手模型是来自前一个迭代(轮)的LLM。它使用自我博弈机制，根据过去的知识产生结果。...这个函数测量真实数据和对手模型产生的反应之间的预期值差距。主模型的目标是最大化这一期望值差距。这包括将高值分配给与真实数据的响应配对的提示，并将低值分配给由对手模型生成的响应配对。...目的是在保持稳定性的同时，最大限度地提高主模型对语言模型反应的评价。这涉及到一种平衡行为，确保改进不会偏离原始语言模型太远。...当我们继续训练时，随着时间的推移，进步会变得越来越小。这表明模型达到了一个阈值，进一步的迭代不会带来显著的收益。这是我们训练数据中样本提示符每次迭代后的响应。

3571 0

为什么深度学习无法预测股票？本能、理性与《星际争霸2》

为什么？大猫当然不会用“如果机器学习能预测股价了，那谁还去炒股呢”这种“反证法”作为理由。...股票市场中有无数个参与者，简单起见，让我们假设只有高盛和大摩这两家巨鳄，它们都参与了蒂姆·库克对于上一季度苹果业绩的电话会议，并且“各自”分析出会议中党支书库克透露出的应该是利好消息。...高盛会想：虽然根据我自己的分析，苹果股价应该会涨，但万一大摩那伙人比我们先得出了那个结论，并且先下手了，那么我们买到的其实已经是溢价了的股票，不亏才怪！...更重要的是，图片/语言这些模式的形成与理解“不太依赖于人”，大猫当然不是说没有人图像与语言可以凭空产生，而是说当我们要从一张图片中识别出一只猫的时候，这只猫本身是客观存在的，不会因为他人的行为而导致结果的改变...写在最后也许你会问大猫，既然你深知深度学习的局限性，为什么还要把他作为你的研究方向呢，而且还是博士的研究方向？

1.4K3 0

生成对抗网络(Generative Adversarial Networks)

因此，生成器不会出现过拟合问题，因为生成器不会直接对接真实数据。?...存在的问题是均衡点是判别器代价函数的鞍点(saddle point)，会困在鞍点上不做优化。2、非饱和博弈?...上图解释了为什么三种博弈方法使用不同的生成器函数，其中零和博弈和最大似然估计效果比较差，非饱和效果比较好。...先将判别器优化到低一级，再将生成器优化到低一级，再将判别器优化到第二级，再将生成器优化到第二级，这样不断交替优化都达到了十级。...假设句子的特征维1x1x999，那么最终的长度为1x1000。判别的时候和word2vcc做一个比对，最终生成一个优化标签，输出还是0和1，判断这个图片和描述是否一致。

6.4K3 0

Jurgen Schmidhuber新论文：我的就是我的，你的GAN还是我的

在任意试验中执行一次交互时，控制器 C 生成输出向量 x ∈ R^n。该输出向量可能会影响环境，环境输出对 x 的回应：y ∈ R^q。同样地，y 可能影响 C 在下一次迭代中的输入。...因此，即使 M 在有噪音的电视屏幕前出现高误差，C 也不会因为智能体停留在电视前面而得到奖励，因此 M 的误差没有得到改进。完全可预测和基本不可预测都会令 C 感到无聊。...如果它们的预测或假设结果不同，则同意执行实验，以确定哪个大脑是正确的，并且出乎意料的失败者会在零和博弈中向获胜者支付内在奖励（实值的赌注，如 1.0）。...但是，对于生成对抗网络来说，实验方案是预先安排好的，并且常常是相同的：只是简单地测试最近生成的模式是否在给定的训练集中。...为什么这场预测器和编码器的博弈的结果是解耦的特征码？

6862 0

AlphaGo的制胜秘诀：蒙特卡洛树搜索初学者指南

eval 是一个函数，用于（在末端节点处）评估最终博弈状态 s_hat 表示任意最终博弈状态（末端节点）右下角公式中的负号表示该博弈为零和博弈。...该函数会根据输入的博弈状态产生下一个“移动/动作”。在实践中，这一函数的计算速度很快，从而可以进行很多次的模拟——默认的 rollout 策略函数会使用服从均匀分布的随机采样。 ?...模拟总会产生一个评估，就围棋而言，这个评估结果就是胜利，失败或平局，但通常模拟结果出现值都是可以的。在蒙特卡罗树搜索模拟中，我们始终都是从先前没有被访问的节点开始。...模拟结果会被传送到根节点，并且反向传播路径上的每个节点的统计数据都会被计算/更新。...这一部分看起来很靠谱——因为我们会愿意遍历具有高胜率的节点。 为什么我们不能只使用 exploitation 分量呢？

1.2K6 0

自学如何使用Python和Keras构建你自己专属的AlphaZero系统

当你做了一个糟糕的下棋动作时，要么是因为你错误地判断了结果位置的未来值，要么是你错误地判断了你的对手会采取某种行动的可能性，所以没有考虑去探索这种可能性。...现在，我们将更详细地了解代码，并展示一些结果，以证明人工智能随着时间的推移变得越来越强大。注意：这是我自己对AlphaZero如何工作的理解，基于上面提到的论文中所提供的信息。...调整这些变量将影响算法的运行时间、神经网络的准确性和整体的成功。上面的参数产生了一个高质量的Connect4玩家，但是要花很长时间才能完成。为了加快算法的速度，请尝试以下参数。...从logger.mcts文件输出你可以看到在评估期间每次（博弈）下法的概率。...结果在几天内进行的训练会产生以下的关于小批量（mini-batch）迭代编号的损失图表: 对小批量迭代数的损失最上面的线是策略端的误差(MCTS的交叉熵移动概率与神经网络的输出相对应)

9629 0

Stream 分布式数据流的轻量级异步快照

概述分布式有状态流处理支持在云中部署和执行大规模连续计算，主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。...该算法不会对执行产生重大影响，保证线性可伸缩性，并且可以在频繁的快照下正常运行。这里所说的新型的快照算法，既适用于有向无环图，也适用于有向有环图。本文重点关注在有向无环图中的应用。 2....基于接收到的输入，任务不断操作其内部状态，并产生新的输出。...对于流入算子的每一条数据 r ∈ M，通过 UDF，产生一个新的状态值 st’，同时产生一个新的输出的集合 D ⊆ M。 3....3.3 循环数据流的ABS 在存在有向循环的执行图中的情况下，上面的 ABS 算法不会终止而会导致死锁，因为一个循环中的任务将无限期地等待接收来自其所有输入的 barrier。

1K2 0

为什么在深度学习中，AlphaGo Zero是一个巨大的飞跃?

有人会认为，博弈会有足够大的搜索空间，这样就有可能会有一种不那么强大的算法，能够幸运地打败自己。...甚至更令人惊讶的是，《自然》杂志指出，这是在系统上运行的，并且没有使用分布式计算。因此，任何一个基于Nvidia GPUs的人都有能力复制这些结果。...简而言之，无论一个简单的想法是什么，你都不会体会到它到底有多好，除非你去实际运行它。与AlphaGo前身一样，MCTS搜索被用来选择下一个动作。...当你拥有这种机制时，你可以对它的最终输出进行评估，它的精确度要高得多，而且训练数据也少。在AlphaGo Zero的案例中，没有任何训练数据可以说明训练数据是通过自我对弈产生的。...它可以有效地做到这一点，因为所有其他的不确定因素都是已知的。也就是说，在一系列行为的结果中没有不确定性，行为效果是可以预测的。简而言之，博弈的行为是可以预测的。

9118 0

Casper与V神的博弈论（过节了，文末送大礼）

Casper 是一种以博弈论为基础的共识机制。 为什么这么说？区块链与博弈论有什么关系？不妨往下看！是什么博弈论？...如果在游戏中玩家会追求自身的利益，那就会产生我们想要的结果。例如，想象一下我们负责设计一个拍卖规则，我们的目标是希望投标人能够以一个产品的实际价值中标。...就像在拍卖例子中，我们用博弈论来设计一套能够产生一定制衡结果的规则或机制，在共识机制设计中，我们使用密码学和计算机编程来实现这种经济激励机制，我们设计的系统通常都是分布式与去中心化的。...此外，如果验证人过于显著地改变下注，比如先是赌某个块有很高概率胜出，然后又改赌另外一个块有高概率胜出，他将被严惩。这条规则确保了验证人只有在非常确信其他人也认为某个块有高概率胜出时才以高概率下注。...只要验证人足够多，Casper就可以通过这个机制来确保不会出现下注先收敛于一个结果然后又收敛到另外一个结果的情况。验证人对每一个高度h上的每一个候选块独立下注，给每个块指定一个胜出概率并公布。

7252 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云