《程序员的数据-概率统计》读书笔记

入职腾讯以来,一直在腾讯微信广告团队负责用户画像,听起来很高大上,但并未涉及到画像的挖掘,只是主要负责在工程上铺设画像数据的更新通道,对画像的理解和挖掘都处于非常浅显的阶段。而在我看来,微信数据是一座价值连城的金矿,无法利用自身能力充分发挥数据价值,实在是让人痛心疾首,扼腕叹息。经过长时间的了解和思考,下定决心从后台开发转战数据科学,在微信广告的大平台上,挑战自己,快速成长,力争一年扛起业务,三年成为领域专家。

数据科学是一个非常复杂的研究领域,最主要的是要具备数据科学的思考方式,以在用户画像团队参与的定向推荐为例,在定向推荐这个非常好的应用场景下,团队仍在用工程的思维来解决问题,第一个版本更是靠产品拍脑袋来驱动,实在是一大败笔。在急需提高的数据思考方式下,更需要工程能力和数学基础的支撑:在腾讯内部,目前主流的大数据处理平台为Spark,工程能力需要不断深入对Spark大数据框架的理解,同时不断扩宽自己的视野,对业界正在兴起的flink等新技术保持关注;而在数学基础方面,没有捷径可走,必须把当年丢掉的,没有学好的数学基础一点点补起来,尽管很艰难很困难,是个不小的挑战;而在有了意识和基础之后,就必须要深入理解产品,在复杂的业务场景下,不断提高自己解决问题的能力。

本篇是写在开始填补数据基础伊始,为了快速从整体上把握数理统计所覆盖的内容,同时了解目前自己在数据科学上的认知水平,先用几天时间通读了《程序员的数学-概率统计篇》,因为是通读,并未涉及较深的数学知识,先摸摸底,再咬牙补。

第一章 概率空间的三要素

概率空间的三要素(Ω,F,P),集合Ω是所有可能结果的集合,F是由一些Ω子集构成的集合,F中的元素称为事件,P是一个集合的函数,它的自变量是集合,P实际上就是我们所说的概率。

第二章 多个随机变量之间的关系

联合概率:

条件概率:

贝叶斯公式:

随机变量独立性:如果

则说明两个随机变量独立

第三章 离散值的概率分布

二项分布:

期望:

方差:

标准差:

引入标准差主要是为了更为直观的表述分散程度

大数定理:大数定理的直观解释是随机变量的个数n无限增加时,这些随机变量的平均值逐渐趋近于真实平均值

大数定理的数学解释:对于n个随机变量,

Z=,

Z的平均值仍为E[X],但是方差

由此可见,n值越大,方差越小,n趋于无穷大时,方差为0,即Z期望值趋于E[X]。

最小二乘法:使平方误差

最小的算法,是一种最为简单的误差监测方法,在机器学习线性模型中有应用。

第四章 连续值的概率分布

连续值引入了微积分,思想和离线分布完全一致

概率密度:

条件概率:

贝叶斯公式:

独立性:如果

则说明两个随机变量独立

期望:

方差和标准差和离线分布一致

正态分布和中心极限定理:正态分布的核心是高斯积分

正态分布的价值在于简化计算,同时现实中很多结果遵从正态分布。

中心极限定理:同样是n个随机变量,构建

(为啥要这么处理,因为要收敛),当n趋近于无穷大时,其符合正态分布,而无论X是什么分布(这里的数学证明暂时略去)。

一言以蔽之,大数定理负责提供期望,中心极限定理负责提供偏离程度(方差)。

第五章 协方差矩阵

协方差矩阵在机器学习中广泛应用,用于考量随机变量之间的相关性。

协方差定义:

方差是协方差的一种特例,及X=Y时,即为方差。

相关系数:

用于标识两个随机变量之间的关系。

请注意,协方差和相关系数是有局限性的,两个随机变量之间无关联是相关系数为0的充分而不必要条件。

协方差矩阵:

其中X为n个随机变量组成的向量。

任意方向的发散程度:

借由此式可以考量协方差矩阵在任意方向的发散程度。

数据的协方差矩阵与标准数据(圆)的线性变换有直接的关系。此线性变换完全由数据的特征向量和特征值确定。而特征向量表示旋转矩阵,特征值对应于每个维度上缩放因子的平方(暂时略去数学推导)。

第六章 假设检验

最小方差无偏估计:

值得注意的是,分母是n-1,而不是n,主要为了保证估计的无偏性。

极大似然估计:极大似然估计背后的原理比较朴素,当前出现的就是概率最大的,即给定当前的测量值,使其概率最大化,求出参数即可。

贝叶斯估计:极大似然估计严重依赖采样值,而贝叶斯估计则须考虑先验概率,贝叶斯公式是在描述你有多大把握能相信一件证据(条件概率),而贝叶斯估计是想求θ使P(Xθ)P(θ)最大,求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。贝叶斯估计一个问题是要先有先验概率P(θ),而这个概率在某些情况下很难事先准确给定的。

检验理论:检验理论的思想基础是有虚无假设(试图驳斥的主张)和对立假设(试图肯定的假设),思路是,如果虚无假设成立,那么对立假设成立的概率很低很低,所以虚无假设很可能是错的。

最后这本书还阐述了一些概率统计的应用,包含伪随机数的生成,回归分析(举了线性回归的例子),PCA(机器学习常用,用于减少特征数量),随即过程中的随机游走和马尔可夫链(追忆学校的随即过程随机过),信息论(表征信息量,信道编码)。

利用一周工作之余时间,通读了这本书,大致回顾了下这门科学所覆盖的内容,这次通读略去了大量的数学推导,在后续的学习中,应该扎实的夯实基本数据功底(把毕业扔掉的数学教材又买了回来),为机器学习学习提供扎实的基础支撑。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180107G0G6D800?refer=cp_1026

相关快讯

扫码关注云+社区