游戏区域为20行10列, 方块上限为10000块, 方块出现顺序和初始位置固定.
每次消行得分由消灭行数的对应系数与消行前盘面上已有格子数相乘得出....如果想设计新的策略引入更多的盘面特征做评估, 原本的系数还有效吗? 新的系数又如何设置呢?
类似的问题, 遗传算法(Genetic Algorithm)可以给出答案....变异
最后, 在新一代模型中随机选择出20%的个体, 在其参数上添加50%的高斯噪声, 以引入新的随机性....其中, 状态-2即为不超过10行最后盘面, 当时的得分8000分即为模型本轮的fitness值, 以及如果模型被选中, 状态-2的盘面状态将作为残局交由下一组模型....只依靠一组随机的起始参数, 配合几轮选择和随机的突变, 就可以实现如此精巧的控制策略. 十分神奇!