列夫托尔斯昊

文章/答案/技术大牛

发布

LV0

发表了文章 2022-11-282022-11-28 20:54:14

系统安装工具

系统允许任何来源安装包 sudo spctl --master-disable

列夫托尔斯昊 2022-11-282022-11-28 20:54:14

bash、android、bash 指令、https、http

发表了文章 2022-05-192022-05-19 15:22:42

解锁播放器的隐藏功能👀用过的都说好😎

动机🤔 有时候想看视频，遭遇1-2min的广告，望而却步 "歪，我要看的视频也就3min好嘛？？？" 有时候你想看个新闻，却还要装个Flash 想起乔帮主...

列夫托尔斯昊 2022-05-192022-05-19 15:22:42

flash、tcp/ip、windows

发表了文章 2022-05-172022-05-17 17:05:14

Mac必备软件推荐，让你效率起飞

系统工具效率 Alfred 置顶，比spotlight高效，支持各种插件，没有上限 Appcleaner mac卸载软件就靠它，一键拖入，彻底清理干净。想想...

列夫托尔斯昊 2022-05-172022-05-17 17:05:14

ide、python、markdown

发表了文章 2021-09-262021-09-26 16:23:58

【云服务器】推荐san、feng、yun服务器，目前永久免费！

一直在用zerotier的异地组网服务，过节回家可能是跨了运营商，所以p2p打洞失败，要构建moon节点加速需要有公网ip的云服务器，于是乎找到了san、f...

列夫托尔斯昊 2021-09-262021-09-26 16:23:58

linux、云服务器、ip、p2p

发表了文章 2021-02-022021-02-02 10:59:12

编辑公式利器，Mathpix Snipping次数用完了吧

伴随着技术的进步，以前应用App才能接决的问题，都可以在嗑盐人常用公式编辑器分享一个在线latex公式编辑器 https://latex.91maths....

列夫托尔斯昊 2021-02-022021-02-02 10:59:12

markdown、https、网络安全、打包

发表了文章 2021-02-022021-02-02 10:58:57

word设置备忘

Mendeley 和 Zotero 都可以自动生成参考文献和引文目录但是GB7714中规定多个作者要省略，即中文文献：A,B,C,等.，英文文献：A,B,C...

列夫托尔斯昊 2021-02-022021-02-02 10:58:57

word

发表了文章 2021-02-022021-02-02 10:58:46

mac开启HiDPI

不只是黑苹果需要开启hidpi，白苹果外接非4k显示屏的时候默认也是不开启hidpi的，显示效果不佳，颗粒感严重

列夫托尔斯昊 2021-02-022021-02-02 10:58:46

tcp/ip

发表了文章 2020-09-102020-09-10 18:29:51

强化学习仿真环境搭建入门Getting Started with OpenAI gym

gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设，并且与任何数字计算库(例如TensorFlow或Theano)兼容。

列夫托尔斯昊 2020-09-102020-09-10 18:29:51

编程算法、机器人、游戏、强化学习、监督学习

发表了文章 2020-09-102020-09-10 18:29:37

RL实践3——为Agent添加Policy、记忆功能

在实践2中，介绍了gym环境的定义和使用方法。在实践1中，介绍了动态规划DP 求解价值函数并没有形成一个策略Policy\(\pi\)来指导agen...

列夫托尔斯昊 2020-09-102020-09-10 18:29:37

学习方法、深度学习、强化学习、数据加密服务、serverless

发表了文章 2020-09-102020-09-10 18:29:19

强化学习笔记10：经典游戏示例 classic games

对于石头剪刀布来说，最优策略，显然和对手agent策略相关，我们期望找到一种一致的策略策略，对所有对手都有效什么是第i个玩家的最优策略\(\pi\)

列夫托尔斯昊 2020-09-102020-09-10 18:29:19

游戏、强化学习

发表了文章 2020-09-102020-09-10 18:29:01

强化学习笔记11：工程师看强化学习

缺点：带来维度灾难对于连续空间，构建Value = w1 * state + w2 * action 手段：函数近似器

列夫托尔斯昊 2020-09-102020-09-10 18:29:01

linux、强化学习、游戏、编程算法

发表了文章 2020-09-072020-09-07 15:02:07

RL实践3——为Agent添加Policy

在实践2中，介绍了gym环境的定义和使用方法。在实践1中，介绍了动态规划DP 求解价值函数并没有形成一个策略Policy\(\pi\)来指导agen...

列夫托尔斯昊 2020-09-072020-09-07 15:02:07

数据加密服务、学习方法

发表了文章 2020-09-072020-09-07 15:01:43

RL实践1——动态规划值迭代

动态规划的使用条件时MDP已知，在简单游戏中，这个条件时显然成立的使用Value iteration的方法求解每个状态的价值函数，迭代收敛之后，对应最优策略...

列夫托尔斯昊 2020-09-072020-09-07 15:01:43

强化学习、编程算法

发表了文章 2020-09-072020-09-07 15:01:07

RL实践2——RL环境gym搭建

首先先来回顾一下强化学习问题中，环境Env 和代理Agent 分别承担的角色和作用。

列夫托尔斯昊 2020-09-072020-09-07 15:01:07

python、强化学习、编程算法

发表了文章 2020-08-312020-08-31 14:58:11

hexo 进阶设置指南（持续更新）

对复杂公式的支持不够好，简单公式可以显示，复杂编译错误，验证表明，问题不是mathjax.js导致，是默认hexo引擎编译导致html文本转义错误。

列夫托尔斯昊 2020-08-312020-08-31 14:58:11

渲染、markdown、hexo、html、javascript

发表了文章 2020-08-312020-08-31 14:50:42

强化学习笔记9：探索和利用 exploration and exploitation

最佳的策略是用长期的眼光来看，放弃短期高回报获取足够策略是让策略变成全局最优的必要条件

列夫托尔斯昊 2020-08-312020-08-31 14:50:41

python、机器学习、神经网络、深度学习、人工智能

发表了文章 2020-08-312020-08-31 14:41:15

强化学习笔记8：整合学习和规划

第7章节，讲了PG，从episode经验学习到策略 policy 之前的章节，讲了从episode 经验学习到价值函数

列夫托尔斯昊 2020-08-312020-08-31 14:41:15

监督学习、linux

发表了文章 2020-08-312020-08-31 14:34:45

强化学习笔记7：策略梯度 Policy Gradient

之前的策略优化，用的基本都是\(\epsilon\)-greedy的policy improve方法，这里介绍policy gradient法，不基于v、q函数

列夫托尔斯昊 2020-08-312020-08-31 14:34:45

编程算法

发表了文章 2020-08-312020-08-31 14:29:16

强化学习笔记5：无模型控制 Model-free control

贪婪策略梯度法如果用V(s)，需要MDP已知对于已知MDP，可以通过策略迭代的方法，DP到最优策略

列夫托尔斯昊 2020-08-312020-08-31 14:29:16

编程算法

发表了文章 2020-08-312020-08-31 14:24:41

强化学习笔记2：Markov decision process(MDP)

我们说一个state若满足，则其具有马尔可夫性，即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程，即随机状态序列具有马尔可夫属性。

列夫托尔斯昊 2020-08-312020-08-31 14:24:41

iteration、policy、process、state

12 3 4 下一页

个人简介

北航
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2020-07-29

个人成就

获得 146 次赞同
文章被阅读 94.6K 次

关注了：1关注者：18