很多朋友都对机器学习心存各种敬畏之心。实际上,机器学习更多的也不过是我们“统计学习”的扩展延伸和行业实现的具体化。无非是通过样本数据发现规律性的东西而已。何况“All models are wrong”,没有必要将其神化。
大家可能在新闻中看到或听说了各种机器学习成果,像,语言翻译,人脸识别,图片识别等等,例如下图,手写数字的识别。他们的实现融合了各种工程技术,但对于我们小白来说,也并非遥不可及,高不可攀。
如何在一天之内玩转机器学习!
在这里,我们要使用另一种统计分析软件,Python(其实是一门程序语言,类似C,Java等)。其中有强大的机器学习软件包scikit-learn。
“玩转”攻略
1. 下载Anaconda套件,把python和195个库一键安装,记得,全选全安装,傻瓜式流程,不要节外生枝哦!
下载地址:http://continuum.io/downloads 选择适合自己电脑的版本(32位或者64位系统),其中记得选Python2.7版。
2.复制scikit-learn的notebook教程。
下载地址:https://github.com/jakevdp/sklearn_pycon2014 没有使用过GitHub的同学,可以找到下载zip的链接,下载整个文件包,将其中的notebooks文件夹解压出来,备用!
3. 运行ipython notebook(这是个程序,通过开始菜单或者快捷方式打开),打开上一步中notebooks文件夹中的.ipynb文件,然后就可以开始边看边学啦!
Tips:程序框中的代码,可以通过Ctrl+Enter运行哦~因为程序代码的相互依存性,想动手尝试的,需要从第一段代码开始,逐个Ctrl+Enter运行下来,才会出现结果哦!
上面提到的手写数字识别,以及随机森林、K-means聚类、Bias-Variance Tradeoff等昔日“酷炫”的概念就在指尖,要不要赶紧去尝试一下?!
随机森林:
K-means聚类:
Bias-Variance Tradeoff: