首页
学习
活动
专区
工具
TVP
发布

探物及理

终于等到你[吃瓜],欢迎关注探物及理[得意] 张小跳会为你持续贡献好物分享: 期待我们一起变得更酷!
专栏作者
59
文章
81511
阅读量
14
订阅数
系统安装工具
系统允许任何来源安装包 sudo spctl --master-disable
列夫托尔斯昊
2022-11-28
9630
解锁播放器的隐藏功能👀用过的都说好😎
动机🤔 有时候想看视频,遭遇1-2min的广告,望而却步 "歪,我要看的视频也就3min好嘛???" 📷 有时候你想看个新闻,却还要装个Flash 📷 想起乔帮主说的话 "移动时代是低功耗设备、触摸屏界面和开放网络标准的时代,Flash 已经落伍。" 于是乎,mac和win 平台下,都有解😎 Solution Mac下,果断的下载IINA就好了 📷 作为一款万能的视频播放器,IINA mac 版的界面精美,功能齐全,支持Touch Bar、兼容 MPV 脚本、几乎支持所有格式、网络播放等,有中文支持
列夫托尔斯昊
2022-05-19
6840
Mac必备软件推荐,让你效率起飞
系统工具效率 Alfred 置顶,比spotlight高效,支持各种插件,没有上限 Appcleaner mac卸载软件就靠它,一键拖入,彻底清理干净。想想CleanMyMac、Dr.Cleaner还收费,真是笑死人 istate menus 监控你的电脑,cpu、内存、网络、硬盘,你能想到的都有了 handshaker 老罗确实改变了世界,锤子出品必属精品,mac和手机连接的神器,有线和无线均可,Android和iPhone都可以用,itunes是个啥??? Duet Mac下mac os 10
列夫托尔斯昊
2022-05-17
2.2K0
【云服务器】推荐san、feng、yun服务器,目前永久免费!
一直在用zerotier的异地组网服务,过节回家可能是跨了运营商,所以p2p打洞失败,要构建moon节点加速 需要有公网ip的云服务器,于是乎找到了san、feng、yun(以前一直没有注册成功甲骨文) 支持win、linux等系统,一键安装宝塔,很方便
列夫托尔斯昊
2021-09-26
20.4K0
编辑公式利器,Mathpix Snipping次数用完了吧
伴随着技术的进步,以前应用App才能接决的问题,都可以在 嗑盐人常用公式编辑器 分享一个在线latex公式编辑器 https://latex.91maths.com https://mathpix.
列夫托尔斯昊
2021-02-02
2.7K0
word设置备忘
Mendeley 和 Zotero 都可以自动生成参考文献和引文目录 但是GB7714中规定多个作者要省略,即中文文献:A,B,C,等.,英文文献:A,B,C,et al. 所以插入引文格式时,统一为et al.,然后使用word的宏功能和正则表达式完成统一替换
列夫托尔斯昊
2021-02-02
4590
mac开启HiDPI
不只是黑苹果需要开启hidpi,白苹果外接非4k显示屏的时候默认也是不开启hidpi的,显示效果不佳,颗粒感严重
列夫托尔斯昊
2021-02-02
1.6K0
强化学习仿真环境搭建入门Getting Started with OpenAI gym
gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设,并且与任何数字计算库(例如TensorFlow或Theano)兼容。
列夫托尔斯昊
2020-09-10
2.2K1
RL实践3——为Agent添加Policy、记忆功能
在实践2中,介绍了gym环境的定义和使用方法。 在实践1中,介绍了 动态规划DP 求解 价值函数 并没有形成一个策略Policy\(\pi\)来指导agent的动作选取,本节将利用SARSA(0)的学习方法,帮助agent学习到价值函数(表),指导\(\epsilon\)-greedy策略选取动作。
列夫托尔斯昊
2020-09-10
7360
强化学习笔记10:经典游戏示例 classic games
对于石头剪刀布来说,最优策略,显然和对手agent策略相关,我们期望找到一种一致的策略策略,对所有对手都有效 什么是第i个玩家的最优策略\(\pi\)
列夫托尔斯昊
2020-09-10
8230
强化学习笔记11:工程师看强化学习
缺点:带来维度灾难 对于连续空间,构建Value = w1 * state + w2 * action 手段:函数近似器
列夫托尔斯昊
2020-09-10
7460
RL实践3——为Agent添加Policy
在实践2中,介绍了gym环境的定义和使用方法。 在实践1中,介绍了 动态规划DP 求解 价值函数 并没有形成一个策略Policy\(\pi\)来指导agent的动作选取,本节将利用SARSA(0)的学习方法,帮助agent学习到价值函数(表),指导\(\epsilon\)-greedy策略选取动作。
列夫托尔斯昊
2020-09-07
4380
RL实践1——动态规划值迭代
动态规划的使用条件时MDP已知,在简单游戏中,这个条件时显然成立的 使用Value iteration的方法求解每个状态的价值函数,迭代收敛之后,对应最优策略生成。
列夫托尔斯昊
2020-09-07
4580
RL实践2——RL环境gym搭建
首先先来回顾一下强化学习问题中,环境Env 和 代理Agent 分别承担的角色和作用。
列夫托尔斯昊
2020-09-07
1.3K0
hexo 进阶设置指南(持续更新)
对复杂公式的支持不够好,简单公式可以显示,复杂编译错误,验证表明,问题不是mathjax.js导致,是默认hexo引擎编译导致html文本转义错误。
列夫托尔斯昊
2020-08-31
9250
强化学习笔记9:探索和利用 exploration and exploitation
最佳的策略是用长期的眼光来看,放弃短期高回报 获取足够策略是让策略变成全局最优的必要条件
列夫托尔斯昊
2020-08-31
1.8K0
强化学习笔记8:整合学习和规划
第7章节,讲了PG,从episode经验学习到 策略 policy 之前的章节,讲了从episode 经验学习到 价值函数
列夫托尔斯昊
2020-08-31
7560
强化学习笔记7:策略梯度 Policy Gradient
之前的策略优化,用的基本都是\(\epsilon\)-greedy的policy improve方法,这里介绍policy gradient法,不基于v、q函数
列夫托尔斯昊
2020-08-31
7690
强化学习笔记5:无模型控制 Model-free control
贪婪策略梯度法如果用V(s),需要MDP已知 对于已知MDP,可以通过策略迭代的方法,DP到最优策略
列夫托尔斯昊
2020-08-31
7760
强化学习笔记2:Markov decision process(MDP)
我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。
列夫托尔斯昊
2020-08-31
8900
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档