杨熹的专栏

224 篇文章
40 人订阅

全部文章

杨熹

5 分钟入门 Google 最强NLP模型:BERT

BERT (Bidirectional Encoder Representations from Transformers)

463
杨熹

一天读一本书的秘密

两本书里都给出了可以快速阅读的方法和步骤。他们有一些重合的地方,也各自有一些独特的观点。

263
杨熹

《斯坦福大学人生设计课》-你希望你的人生是工业品,还是艺术品?

这本书吸引我的是它的名字叫做人生设计,我们通常都是知道人生规划这个词,而设计相比于规划来讲,给我一种更自由更浪漫的感觉,让我非常想要进去读一下人生到底应该如何设...

662
杨熹

《不会被机器替代的人》:智能时代的生存策略

一开始人们以为,高级的脑力劳动不会被替代,比如医生、律师,可是现在医生、律师的活都可以干,而且比人的效率高很多。

481
杨熹

强化学习第6课:什么是 Crossentropy 方法

求解方法不止有一个, 有一种思路是,我们有一个 policy,即有了行为和状态的概率分布。 对其进行初始化,可以是随机的,也可以根据具体问题用一些先验知识初...

472
杨熹

3 个方法让计划可以达成

生活中,我们经常会做计划,但很多都完成不了,经常以失败而告终,下面介绍 3 个方法让我们的计划可以达成。

673
杨熹

强化学习第5课:什么是马尔科夫决策过程

它和我们前面讲的决策过程是有一样的结构,只不过它会有更多限制。这里同样也有 agent 和环境,只不过还就多了一个状态,用 s 来表示。状态 state 是 a...

674
杨熹

强化学习第3课

病人去看医生,医生就是这个代理,医生观察一些症状,并给出一个治疗方案,然后会得到一个反馈,病人是否在治疗之后感觉好一些了等等。

513
杨熹

强化学习第4课:这些都可以抽象为一个决策过程

这个过程有两步,首先你的代理会观察环境的一些特质,有时是传感器感知到的,有些是输入的用户特征。 然后代理会选择一个行为,将这个行为反馈给环境。 之后代理不仅...

611
杨熹

强化学习第2课:强化学习,监督式学习,非监督式学习的区别

在监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

683
杨熹

强化学习第一课:像学自行车一样的强化学习

在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。

663
杨熹

你找到生命中最重要的那件事了吗?

我们在做每件事前都要想一下—“我要做的那件最重要的事是什么?”把“寻找关键问题”培养成一种习惯和生活方式。

903
杨熹

AI 时代,你和纸张的关系是什么?

家里有太多纸类文件了,每次收拾完之后,不到两天又积攒了一大堆,几乎每天都有从邮局寄过来的信件:医院的账单,电费,煤气费,信用卡账单,各种宣传单,促销的优惠券等等...

603
杨熹

强化学习 8: approximate reinforcement learning

前面说过,对于骑自行车这种可能只有十个 state,四个 aciton 的小问题上面,交叉熵可以解决,但如果在自动驾驶,或者打游戏上面,它却不行,因为这时我们没...

771
杨熹

用一个小游戏入门深度强化学习

今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。

771
杨熹

什么是 Q-learning

在这个游戏中,agent 从一个给定的位置开始,即起始状态。 在不穿越迷宫墙壁的前提下,在每个状态时,都可以选择上下左右四个方向走一步,或者原地不动, 上下...

1202
杨熹

权重初始化的几个方法

其中第一步 权重的初始化 对模型的训练速度和准确性起着重要的作用,所以需要正确地进行初始化。

1002
杨熹

为什么在优化算法中使用指数加权平均

指数加权平均(exponentially weighted averges),也叫指数加权移动平均,是一种常用的序列数据处理方式。

581
杨熹

为什么需要 Mini-batch 梯度下降,及 TensorFlow 应用举例

里面对 BGD,SGD,MBGD,Adagrad,Adadelta,RMSprop,Adam 进行了比较, 今天对其中的 mini-batch 梯度下降 作进...

761
杨熹

梯度消失问题与如何选择激活函数

当我们在做反向传播,计算损失函数对权重的梯度时,随着越向后传播,梯度变得越来越小,这就意味着在网络的前面一些层的神经元,会比后面的训练的要慢很多,甚至不会变化。

903

扫码关注云+社区