首页
学习
活动
专区
工具
TVP
发布

杨熹的专栏

专栏作者
302
文章
364532
阅读量
55
订阅数
KWIK
KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning
杨熹
2020-04-10
5790
SARSA 算法简介
State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法,它的算法和公式和 Q learning 很像,但是 Q-Learning 是Off-Policy的,SARSA 是On-Policy 的,具体区别我们可以在下一节中再看。
杨熹
2020-03-20
1.3K0
什么是 Deep Q learning 算法
上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况,因为它需要建立的 Q-table 对于较大维数的状态空间来说,计算是很难实现的,所以用 Deep Q Learning,即 Deep Learning + Reinforcement Learning 的方式来解决,下面是 deepmind 团队发表的 DQN 算法:
杨熹
2020-03-20
1K0
What is k-means, How to set K?
figure cited here, recommend reading: K-Means Clustering – What it is and How it Works
杨熹
2019-07-22
5000
机器学习面试题集 - 超参数调优
网格搜索实际上就是暴力搜索: 首先为想要调参的参数设定一组候选值,然后网格搜索会穷举各种参数组合,根据设定的评分机制找到最好的那一组设置。
杨熹
2019-06-21
8120
机器学习面试题集-图解准确率,精确率,召回率
当样本比例非常不均衡时,比如某类别占 样本比例 80%时,分类器把所有样本都预测为这个类别,也可以获得 80%的准确率
杨熹
2019-05-19
1.7K0
图解精度和召回率
例如方形的左边一半,是实际上为正的样本。右边一半,是实际上为负的样本。那除了算法判断正确的,以外,就是判断错误的样本。
杨熹
2019-02-20
1.4K0
Auto ML 一种自动完成机器学习任务的系统
在 2018 年比较火,很多大公司都开源了各自的auto ml库,例如 Cloud AutoML, AUTO KERAS, Auto Sklearn, Auto Weka 等,
杨熹
2019-02-20
4910
情感分析的方法有哪些
情感分析也称为意见挖掘,是自然语言处理(NLP)中的一个领域,它试图在文本中识别和提取意见
杨熹
2019-02-20
1.7K0
中文NLP笔记:3. 关键词提取的几个方法
  TF-IDF :用于反映一个词对于某篇文档的重要性。过滤掉常见的词语,保留重要的词语
杨熹
2019-01-28
3.3K0
什么是条件随机场 CRF: Conditional Random Fields
Conditional Random Fields 条件随机场,是一种判别模型,可以用于预测序列数据,通过使用过去的上下文信息,使模型达到更好的预测效果。
杨熹
2018-12-25
1.7K0
白话什么是谱聚类算法
谱聚类(Spectral Clustering, SC), 是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远
杨熹
2018-12-25
9450
图解 贝叶斯分类器
在 B 出现的前提下 A 出现的概率,等于 A 和 B 都出现的概率除以 B 出现的概率。
杨熹
2018-12-21
5700
强化学习第一课:像学自行车一样的强化学习
在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。
杨熹
2018-12-06
6010
用一个小游戏入门深度强化学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。
杨熹
2018-10-09
1.2K0
什么是 Q-learning
在这个游戏中,agent 从一个给定的位置开始,即起始状态。 在不穿越迷宫墙壁的前提下,在每个状态时,都可以选择上下左右四个方向走一步,或者原地不动, 上下左右这四个动作的每一个都会将 agent 带到网格的一个新的单元格,即新的状态, 在迷宫中有一个网格处有宝箱,这个网格就是目标状态, 此外,在某些网格处还有一些炸弹, 我们的目标是找到一条没有炸弹的路径,以最快的速度从起始状态到达目标状态。
杨熹
2018-10-09
2K0
为什么需要 Mini-batch 梯度下降,及 TensorFlow 应用举例
里面对 BGD,SGD,MBGD,Adagrad,Adadelta,RMSprop,Adam 进行了比较, 今天对其中的 mini-batch 梯度下降 作进一步详解。
杨熹
2018-08-03
1.5K0
用 TensorFlow.js 在浏览器中训练神经网络
本文结构: 什么是 TensorFlow.js 为什么要在浏览器中运行机器学习算法 应用举例:regression 和 tflearn 的代码比较 ---- 1. 什么是 TensorFlow.js TensorFlow.js 是一个开源库,不仅可以在浏览器中运行机器学习模型,还可以训练模型。 具有 GPU 加速功能,并自动支持 WebGL 可以导入已经训练好的模型,也可以在浏览器中重新训练现有的所有机器学习模型 运行 Tensorflow.js 只需要你的浏览器,而且在本地开发的代码与发送给用户的代
杨熹
2018-06-21
1.3K0
论文 | AlphaGo Zero 的模型和算法
上一篇文章简单学习了 AlphaGo Zero 的特点: AlphaGo Zero 初探 http://www.jianshu.com/u/7b67af2e61b3 算法采用自对弈强化学习,不再需要
杨熹
2018-04-03
7500
用 Doc2Vec 得到文档/段落/句子的向量表达
本文结构: Doc2Vec 有什么用 两种实现方法 用 Gensim 训练 Doc2Vec ---- Doc2Vec 或者叫做 paragraph2vec, sentence embeddings,是一种非监督式算法,可以获得 sentences/paragraphs/documents 的向量表达,是 word2vec 的拓展。 学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性, 或者进一步可以给文档打标签。 例如首先是找到一个向量可以代表文档
杨熹
2018-04-03
4.5K1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档