用蒙特卡洛法求解玩21点牌时发2张A的概率 - 腾讯云开发者社区

所以今天咱们就来实际解决一个问题：用蒙特卡洛法实现简易的模拟抽卡功能！复习一下复习个屁都鸽了一个多月了，忘了之前讲的啥了，自己翻翻前面的都不难！...今天的小目标（喜爱炉石的小朋友看过来）做一个预测抽卡的功能：假设所有的卡牌种类数为S，抽取每张卡牌的概率是一定的即1/S，想求在有放回的抽取了N张卡牌后，获得的卡牌种类的期望X是多少。...我猜此刻数学系的小伙伴儿已经带着一脸不屑拿起笔开始算了，好的，咱们比谁快！正经的教程开始 蒙特卡洛法 蒙特卡罗法也称统计模拟法、统计试验法。是把概率现象作为研究对象的数值模拟方法。...我们在Dim 手牌() as integer时，定义的是一个非固定数组，所以在Erase这个数组时，会重置到这个最开始定义的情况，数组长度就变为了0，所以需要重新redim一下数组长度。 ?...蒙特卡洛法的结论：经过1000次的模拟，在卡片种类在100种情况下，每次抽取100张卡平均会得到63.322种不同类型的卡牌。 ? 演示结果 6、其他模拟条件可以随意更改。 ? 演示结果 ?

6971 1

R语言蒙特卡洛模拟计算π

蒙特卡洛法的基本思想是：为了求解问题，首先建立一个概率模型或随机过程，使它的参数或数字特征等于问题的解：然后通过对模型或过程的观察或抽样试验来计算这些参数或数字特征，最后给出所求解的近似值。...解的精确度用估计值的标准误差来表示。蒙特卡洛法的主要理论基础是概率统计理论，主要手段是随机抽样、统计试验。...用蒙特卡洛法求解实际问题的基本步骤为：根据实际问题的特点．构造简单而又便于实现的概率统计模型．使所求的解恰好是所求问题的概率分布或数学期望；给出模型中各种不同分布随机变量的抽样方法；统计处理模拟结果...，给出问题解的统计估计值和精度估计值。...考虑平面上的一个边长为1的正方形及其内部的一个形状不规则的“图形”，如何求出这个“图形”的面积呢？

1.7K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

强化学习系列案例 | 蒙特卡洛方法实现21点游戏策略

本案例将介绍基于蒙特卡洛的强化学习的基本思想，并求解智能体玩21点游戏的策略。...另一种类型是所求解的问题可以转化为某种随机分布的特征数，比如随机事件出现的概率，或者随机变量的期望值。...，玩家获胜；若两方点数相同，则为平局；具体点数计算规则如下： 1.2到10的点数就是其牌面的数字 2.J,Q,K三种牌均记为10点 3.玩家A(Ace牌)可以当作1点，也可以当作11点，11点时称为“可用...策略 -soft策略，玩家在某状态下，选择要牌（stick）还是停牌（hit）的概率。... pandas as pd 用空字典创建一个Q表，用于存储Q(s,a)： q_table = {} 设置探索率为0.2，并创建空字典作为策略表，存储在状态s下选择动作a的概率： explore_rate

1.6K2 0

概率入门：双色球中奖、购车摇号中签和德扑同花顺，哪个更容易？

中签概率多大呢？有人想到直接用20000÷1420000就是自己中签的概率。但是为什么是这么求呢？有理论依据吗？我们试着推导一下。...按照这种扔骰子的方法来玩，假设我们有个3面的骰子（其实真的是没办法做出一个3个面的等概率骰子，我们就当真的能做出来好了）。第一次我被骰子选中的概率为1/3，还有2/3是没被选中的概率。...仍然用扔骰子的方法来玩，同理：第一次，选中的概率为1/6，没选中的概率为5/6，现在该换5面的骰子了。第二次，选中的概率为1/5，没选中的概率为4/5，现在该换4面的骰子了。...以黑桃为例，假设A~5组成同花顺，黑桃6是不能发的，还剩下46张可以组合，则这种情况下组合数量这样计算 =46×45/(2×1)=1035 2~6组成同花顺，7是不能发的，A可以发（...一旦是5个人，10个人玩的时候就大不相同了，有一点是确定的，人越多公共牌和其他玩家一起组成的牌的种类可能性也越多，“罕见组合”在一局中出现的可能性也比一个人自己摸牌要高很多，请一定注意哦。

1.5K3 0

对称思维的妙用之从解题到本质（一）——巴格拉斯效果发生的概率

巴格拉斯效果发生的概率巴格拉斯效果是扑克牌魔术里里程碑式的效果，基本过程是观众随便说一张扑克牌的名字和一个1~54的数字，然后在不碰牌的情况下，数到那么多张后恰好就是那张牌。...这里用均匀分布翻译观众的随机选择，其实就是高中所说的古典概型公理（连续变量叫几何概型），随机排列则代表魔术师听天由命，随意拿了一副牌上场就表演，这也是基于最大熵模型的公设前提下的分布结论。...沿着这个思路，我们甚至可以直接写出计算式p(C[n] = m) = 1 / 54，因为不仅牌叠的随机排列没用，就连观众选的位置都没有用，因为任何位置上每张牌出现的概率都是1 / 54，这一点只需要牌叠和位置选择有一个是独立于另一个的均匀分布的即可...这个问题其实还相对简单，也只是杀鸡用牛刀的方式向大家展示剔除对求解无用的对称变量这一对称思路的解题方法，下一讲，我们继续几个稍微复杂的问题，敬请期待。...我们是谁： MatheMagician，中文“数学魔术师”，原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义，也取像魔术一样玩数学的意思。

3942 0

建模 python_整数规划建模例题

Python之建模规划篇--整数规划基本介绍整数规划的分类整数规划的特点求解方法分类 0 - 1 型整数规划 蒙特卡洛法 (随机取样法) 整数线性规划的计算机求解分枝定界法 Python...蒙特卡洛法—求解各种类型规划。 0 - 1 型整数规划 0 −1型整数规划是整数规划中的特殊情形，它的变量 xj 仅取值0或1。这时xj 称为0−1变量，或称二进制变量。...当然，当自变量维数很大和取值范围很宽情况下，企图用显枚举法（即穷举法）计算出最优值是不现实的，但是应用概率理论可以证明，在一定的计算量的情况下，完全可以得出一个满意解。...然而应用蒙特卡洛去随机计算106个点，便可找到满意解，那么这种方法的可信度究竟怎样呢？下面就分析随机取样采集106个点计算时，应用概率理论来估计一下可信度。...用Matlab软件求解，需要做–个变量替换，把多维决策变量化成–维决策向量，变量替换后,约束条件很难写出;而使用Lingo软件求解数学规划问题是不需要做变换的,使用起来相对比较容易。

1.2K1 0

AI 赌神——如何教神经网络玩 21 点游戏？（附代码）

考虑到这种情况，我们可能希望模型告诉我们输的概率是多少。再说一次，只有当我们可以增加或减少赌注时，这才有用，而在 21 点游戏中我们不能这样做。...21 神经网络的 ROC 曲线我用我的训练数据绘制 ROC 曲线。...简单策略只有在没有破发机会的情况下才出手（手牌总数低于 12 时拿牌，手牌总数为 12 或更多时才出手）。随机的策略就像是掷硬币——如果它出现头部则拿牌，否则不动。...在下面的图形中，如果庄家牌数很少，我们的神经网络执行效果。但是当经庄家牌数更高（7或更多）时，我们的神经网络表现得更好。 ? 与庄家出示的牌平手或胜出的概率（牌数越多越好！）...与简单的策略不同，它比玩家手牌值在 12 和 16 之间时的结果更坏，我们的神经网络表现更好。 ? 平局或获胜的概率与玩家的初始手牌值的关系上面的图展示了神经网络如何超越简单的策略。

1.5K0 0

AI 赌神——如何教神经网络玩 21 点游戏？（附代码）

考虑到这种情况，我们可能希望模型告诉我们输的概率是多少。再说一次，只有当我们可以增加或减少赌注时，这才有用，而在 21 点游戏中我们不能这样做。...21 神经网络的 ROC 曲线我用我的训练数据绘制 ROC 曲线。...简单策略只有在没有破发机会的情况下才出手（手牌总数低于 12 时拿牌，手牌总数为 12 或更多时才出手）。随机的策略就像是掷硬币——如果它出现头部则拿牌，否则不动。...在下面的图形中，如果庄家牌数很少，我们的神经网络执行效果。但是当经庄家牌数更高（7或更多）时，我们的神经网络表现得更好。与庄家出示的牌平手或胜出的概率（牌数越多越好！）...与简单的策略不同，它比玩家手牌值在 12 和 16 之间时的结果更坏，我们的神经网络表现更好。平局或获胜的概率与玩家的初始手牌值的关系上面的图展示了神经网络如何超越简单的策略。

6043 0

德扑 AI 之父解答 Libratus 的13个疑问：没有用到任何深度学习，DL 远非 AI 的全部

这件事有两个主要原因： 1，在玩扑克的时候，人类很快就会弃牌，所以实际比赛中，大多数手牌很快就变成了一对一比赛。...我从好几个职业牌手那里听说，在这场比赛之后顶级选手之间也开始更多地出现这种做法，很大程度上和「冷扑大师」用很大的下注大小取得了不小的成功有关系。...这是非常大的一个区别。在不完全信息博弈中，有一部分信息是没有对所有玩家公开的，比如，谈判时谈判者的个人偏好、扑克中玩家的手牌、拍卖时参与者心中的价值函数、网络安全攻防中某一方被泄露出的零日漏洞，等等。...DeepStack 中的算法和「冷扑大师」的嵌套子策略求解很相似，他们称之为连续重新求解。在冷扑大师中它的工作方式是，剩余的子博弈在抽象提取、求解时，也会加上对手的确切下注数目。...PIO 求解器是可以欺骗的，可以故意做一些均衡中出现概率为 0 的行为。

9436 0

【AI VS 人类新高峰】冷扑大师发明人：用于策略推理的超人AI

我们来看一下这是扔硬币的游戏，扔硬币有一半的概率是正面，有一半的概率是反面，我们有两个玩家，一个是1号玩家，一个是2号玩家，如果P2猜对的话，P2就会得一分，P1就会减少一分，如果P2猜错的话P1就能得一分...我们看一下这是信息集的相关信息，也就是说我们玩家到底应该怎么玩，各种不同的玩法。红色的玩家有两个信息集，基于这点他可以决定到底该怎么玩。...约翰·纳什在1950年发明了这个概念，它改变了经济学和许多其他科学。 1994年，他获得了诺贝尔奖。但是，当然，这只是有多个玩家时，并且均为理性玩家前提下的定义。它实际上没有做任何事情。...子博弈求解器可以通过错误给予对手我们迄今在游戏中给予我们的数量，同时仍然是完全安全的（即不逊于预先计算的纳什均衡近似蓝图）。 ?...我们使用这个观察来扩展子博弈求解器可以安全地优化的策略空间，从而使其能够比以前的子博弈求解器更好地发挥与对手可能持有的其他（非错误）双手相比更好的灵活性。

7678 0

【重磅】AI 首次在德州扑克战胜人类职业玩家，新算法让机器拥有“直觉”（附论文）

在特定时刻的正确决策依赖于对手所透露出来的个人信息的概率分布，这通常会在他们的行动中表现出来。...我们使用了随机生成的扑克情景用深度学习进行训练。...图 5 展示了一个例子，关于 DeepStack在特定第五张牌的博弈中有着不同数字的分解迭代的攻击性。除了缺少对它稳固性的理论评价，用自玩估值看上去就像最佳反馈估值一样最终收敛至低攻击性策略。 ?...Chance Action：用从最后一次分解为这个动作计算出的反事实值替换对手反事实值。通过清除在任何新公共牌不可能的手牌范围，更新我们自己的范围。 Opponent Action：不用做什么。...一个辅助网络用于在发任意公共牌之前加速对前面的动作的re-solving。 ? 图8：Deep Counterfactual Value Networks。

7758 0

【数学建模】模拟退火算法介绍及实现

模拟退火算法模拟退火算法为一种现代优化算法，用来求解全局最小（最优）解模拟退火法的核心原理：当材料从状态i进入状态j时，若E(j)<=E(i),状态会被转移（E(i)=E(j)）;若为其他情况，状态会以小概率被转移...具体应用例子求解TSP问题例:有100个目标，需要找出巡航最优路径。...，避免出现相同数字 %蒙特卡洛算法部分，为了得到更好的初始值，先用蒙特卡洛法求解相对较好的解 for j=1:1000 %随机产生一千种解 path0 = [...1,1+randperm(100),102];%解的情况 temp =0; %求解每种情况对应的距离值 for i=1:101 %通过循环，解得该情况下的距离...%{ 满足条件，进行替换 %} elseif exp(-df/T) >= rand %不满足条件且被替换的概率 %{ 发生这个概率的事件，进行替换 }%

1.3K3 0

《软件工程导论第6版》--张海藩牟永敏课后答案及其详解第5章总体设计

(a)比较耗时，因为它要检索所有的档案 (b)从速度上看比较块，但是(b)需要排序算法比较复杂，(a)对于设计来讲比较简单 (4)画出的数据流图比较适合(A)的算法第5题 5.下面将给出两个人玩的扑克牌游戏的一种玩法...，试设计一个模拟程序，它的基本功能是：（1）发两手牌（利用随机数产生器）。...（2）确定赢者和赢牌的类型。（3）模拟N次游戏，计算每种类型牌赢或平局的概率。要求用HIPO图描绘设计结果并且画出高层控制流程图。扑克牌游戏规则如下：（1）有两个人玩分别为A和B。...（2）一副扑克牌有52张牌，4种花色（黑桃、红桃、梅花、方块），每种花色的牌的点数按升序排列有2，3,4，…，10，J,Q,K,A等13种。（3）给每个人发三张牌，牌面向上，赢者立即可以确定。...%d，顺子赢牌概率为%d，同点赢牌概率为%d，对子赢牌概率为%d，杂牌赢牌概率为%d”,e1/times,e2/times,e3/times,e4/times,e5/times); } 控制流程图:

2.2K1 0

德扑AI这些年！

所以现在真正玩德州扑克的大部分都还是在攒钱买solver，反而这些“新”技术用的很少 ——看，这就是学术界和工业界的差别。...：假设你有一个很笨的对手，他在玩石头剪刀布的时候只会出石头，此时cfr+算法如何确定你的“最优策略”呢？...很多同学学了深度强化学习之后就老想着用alpha-zero[4]/alpha star[5]的方法解一切, 而在这个场景下，类alpha star [5]的算法的优点就会变成缺点（无法很好的提供拆牌方式...（flop），转牌（turn）以及河牌（river）都需要发公共牌，发牌的可能性也很多，这里就又可以把发出来的公共牌进行合并，比如下图的情况,我们（例如在preflop结束发公共牌的时候）认为在拿到AK...于是deepstack [2] 决定，对求解的深度再做一个截断，cfr算法计算到某个深度之后，该深度节点的ev值就直接用深度神经网络去估计，不再向下进行计算了，这个方法在大体思路上其实和Libratus

2K5 1

强化学习基础篇【1】：基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法

注意奖励概念是现实中奖励和惩罚的统合，一般用正值来代表奖励，用负值代表实际惩罚。...在下一时刻 $t+1$，智能体接收到环境反馈的对于动作 $A_t$ 的奖励 $R{t+1}$，以及该时刻状态 $S_{t+1}$。...如果能求出梯度$\nabla{\theta}J(\theta)$，就可以用梯度上升法求解这个问题，即求解价值函数的最大值。...在这个函数中，$J(\theta)$既依赖于动作的选择有依赖于动作选择时所处状态的分布。...，但由于式中存在$q{\pi{\theta}}$，算法无法直接使用蒙特卡洛法来求取其中的期望。

8262 1

卡牌大师：玩转“洗牌算法”，幸运女神在微笑 (^_^)

承接上一篇：理解 P/NP 问题时，我产生了一种已经触碰到人类认知天花板的错觉？！我们目前的世界仍是基于 P ≠ NP，所以有理由相信：只要我们把牌洗的足够乱，幸运女神或许就会降临。....,51,52,53,54]，求解：一个乱序的新数组 radomNums。...实际上，在现实中，我们玩牌，大部分玩家也是这样去洗的，它也叫【印度洗牌法】（难道是阿三发明的？）...现实中很多扑克高玩都会这样洗吧（一图胜千言）原理：将数组一分为二，再穿插合并，再不断重复这样的操作；研究表明：用鸽尾式洗牌法【洗七次】是最有效的打乱手法！（谁研究的？...目标：将 54 张牌打乱后，抽到区间 [1,10] 的概率为 40%，抽到区间 [11,20] 的概率为 20%，抽到区间 [21,30] 的概率为 20%，抽到区间 [31,40] 的概率为 15%，

3752 0

手把手教你训练一个神经网络，打爆21点！

赢得赌局或打平的几率随玩家手牌总点数的变化（总点数为21时是必赢，概率为1） 3、最后，我们发现“仅在完全不会自爆时才要牌”的朴素策略就可极大地提高击败赌场的几率，因为这种策略将自爆的风险完全转移给了赌场...我们将： 1、用我们上次开发的21点模拟器生成数据（进行少量修正使其更适合用作训练算法） 2、编码并训练神经网络玩21点（最优情况下） ?...最后两行代码告诉我们的神经网络用什么样的损失函数（二元交叉熵是一种用于概率输出分类模型的损失函数），并调整模型来拟合我们的数据。...朴素策略仅仅在爆牌的概率为零时进行拿牌（在玩家手中牌的总点数小于12时拿牌，总点数大于等于12时停牌）。随机策略是指抛硬币的结果是正面朝上时选择拿牌，否则不拿。...获胜或平局的概率随庄家明牌点数的变化（柱形越长概率越大！）我们还可以看看获胜或平局的概率如何随玩家初始手牌的总点数而变化。

1.7K2 0

字节跳动李航：AI for Science的一些探索和进展

计算化学体系的特性时，往往只需要关注原子中外侧轨道的电子。将原子中内侧轨道的电子的势能用定量表示，就可以大幅减少所需要的计算量。...NN-DMC，是我们提出的将神经网络和扩散蒙特卡洛法 DMC（Diffusoon Monte Carlo）结合的另一个方法 [2]。...对关注 Fragment 及其环境在量子计算机上用 U-CCSD 求解。对其他部分在经典计算机上用 Hartree–Fock 法求解。...具体地，量子计算可以部分解决量子蒙特卡洛法中的符号问题。 AI 制药使用 AI 技术辅助药物发现已经成为被业界广为接受的新范式。近年有大量的研究，也有一些技术应用于实际的场景。...MARS 从种子分子开始，不断编辑分子，直到最后得到最优的小分子药物候选。生成的过程中使用马尔可夫链蒙特卡洛法（MCMC），其平稳分布是由多个打分函数构成的概率分布。

3982 0

论文阅读：《基于机器学习的企业定价算法研究》

ASPEN给每种市场状态的这三种对策分别分配一个概率值．企业根据这种概率值来选择对策。...一旦选用的对策使得企业利润提高了，那么这种成功对策的概率值将增大，这样企业在下次处于同样市场状态时再次采用该对策的可能性就加大了。反之，如果本次选用的对策降低了企业的利润，那么它的概率值就会减少。...环境消息产生后，算法找到条件部分与之匹配的规则，从而得到这种市场状态下三种对策的概率值。随后，根据这三种对策的概率值用蒙特卡洛法决定在当前市场状态下所采用的对策是提高价格、降低价格还是维持价格不变。...蒙特卡洛法：http://www.ruanyifeng.com/blog/2015/07/monte-carlo-method.html 每次价格的变动为一个定值△P。...首先关于参数的问题，需要初始化的参数有如：文中提出一个理论最优价格的概念，可以使用参数根据公式直接计算（具体推导参见论文）：模型评估如下：所以很奇怪的是： 1、既然可以直接用公式，那为什么还要用模型拟合

5331 0

《基于机器学习的企业定价算法研究》阅读笔记

ASPEN给每种市场状态的这三种对策分别分配一个概率值．企业根据这种概率值来选择对策。...一旦选用的对策使得企业利润提高了，那么这种成功对策的概率值将增大，这样企业在下次处于同样市场状态时再次采用该对策的可能性就加大了。反之，如果本次选用的对策降低了企业的利润，那么它的概率值就会减少。...环境消息产生后，算法找到条件部分与之匹配的规则，从而得到这种市场状态下三种对策的概率值。随后，根据这三种对策的概率值用蒙特卡洛法决定在当前市场状态下所采用的对策是提高价格、降低价格还是维持价格不变。...蒙特卡洛法：http://www.ruanyifeng.com/blog/2015/07/monte-carlo-method.html 每次价格的变动为一个定值△P。...所以很奇怪的是： 1、既然可以直接用公式，那为什么还要用模型拟合？ 1、自家公司的 L、K 容易，但是如何得到其他企业的L、K和整个市场的C如何得到？

1.6K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

VBA新手教程：抽卡模拟实战（3）

R语言蒙特卡洛模拟计算π

强化学习系列案例 | 蒙特卡洛方法实现21点游戏策略

概率入门：双色球中奖、购车摇号中签和德扑同花顺，哪个更容易？

对称思维的妙用之从解题到本质（一）——巴格拉斯效果发生的概率

建模 python_整数规划建模例题

AI 赌神——如何教神经网络玩 21 点游戏？（附代码）

AI 赌神——如何教神经网络玩 21 点游戏？（附代码）

德扑 AI 之父解答 Libratus 的13个疑问：没有用到任何深度学习，DL 远非 AI 的全部

【AI VS 人类新高峰】冷扑大师发明人：用于策略推理的超人AI

【重磅】AI 首次在德州扑克战胜人类职业玩家，新算法让机器拥有“直觉”（附论文）

【数学建模】模拟退火算法介绍及实现

《软件工程导论第6版》--张海藩牟永敏课后答案及其详解第5章总体设计

德扑AI这些年！

强化学习基础篇【1】：基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法

卡牌大师：玩转“洗牌算法”，幸运女神在微笑 (^_^)

手把手教你训练一个神经网络，打爆21点！

字节跳动李航：AI for Science的一些探索和进展

论文阅读：《基于机器学习的企业定价算法研究》

《基于机器学习的企业定价算法研究》阅读笔记

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐