我与机器学习——缘起

第一次听到“机器学习”这个概念是研一的时候,爱买书的我在当当的销售排行榜上发现了周志华老师的“西瓜书”,不过买回来第一天就后悔了,一大堆的数学公式看不明白,所谓“没有免费的午餐”原理,“奥卡姆剃刀准则”,都有严格的数学证明。对于学化学多年的我来说,数学早就忘记得一干二净了。从此束之高阁,再次拿出来读都是快一年后的事情了。

偶然的机会,我开始接触python。第一反应是这门程序语言好简单,相对于编译型语言,解释性语言就是友好。等自学完python基本语法,我不知道学什么了,在《笨方法学python》中给出了接下来可能的路线,一个是flask/Django这种互联网前后端,实际上就是写网页逻辑之类的,另外一条是数据分析。很显然我选择的比较困难的那条路径,数据分析。

数据分析的基础我还是有的,本科瞎折腾学过一点统计学,所以前期轻车熟路。读完《商务统计学》后,接下来学习《R语言实战》。在python在数据分析火爆之前统计学家搞的一套统计分析软件。回归,分类,聚类学的很容易,到学习降维之类的技术的时候,一下子陷入瓶颈。在一般统计学的教科书并没有降维的说法,最后在求助同学终于在《多元线性回归》中找到降维的章节。紧接着就是恶补线性代数的知识,等把《R语言实战》看完后,我对实现算法产生了兴趣,毕竟调用黑盒一样的软件包对我来说没什么吸引力。

接下来读《数据挖掘导论》这类的书,很自然的数据挖掘与机器学习有紧密的关系。才发现《机器学习》这本书才是精华。研二寒假在家学习coursea上的Andrew Ng和林轩田的机器学习课程。

学习到神经网络的时候,我其实很早就接触神经网路了,大三那年暑假偷偷学matlab,还被老师说不用学,学化学的学啥matlab。等到考研的时候就暂停了学习下去。谁想到两年后还会继续学下去。

自学很迷茫,一边学习机器学习,一边继续恶补计算机的基础课程。我选择了广受好评教材,CMU的《深入理解计算机系统》,MIT的《计算机程序的构造与解释》,普林斯顿的《算法》,其余的数据库原理、计算机网络、编译原理全部在bilibili上学习哈工大的课程。囫囵吞枣地把几乎所有地计算机课程过了一遍。

掌握基础地好处在于理解计算机底层的工作原理,对于高级的程序设计人员来说是必不可少的。后来接触的书越来越多,也有能力继续继续读下去。

未来统计学家是最性感的职业,谁知道呢?我与机器学习的缘分来源于偶然,到现在也断断续续学了一年多。在学校里的好处在于有大把的时间去干自己喜欢的事情,图书馆免费提供几乎一切你想学习的材料,网络上免费的教育资源也非常好,相比较于传统的教学形式,我更喜欢这自学模式。

昨天,莫名奇妙报了北大的数据科学的博士。也不知道哪有勇气去报这么高端大气上档次的学校。

以后说不定真的会去读个博士,读到头发掉光,读到两眼呆滞,也是有可能的。硕士期间也没好好学习,经历多七七八八,都是人生中一段难得的经历。两个城市,一南一北,相聚3500公里,一个寒冷刺骨,一个热情似火。

把生命浪费在美好的事情上面。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181207G0DNYM00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励