首页
学习
活动
专区
工具
TVP
发布

从零开始搭建AI机器学习环境

首先非常抱歉,和上次更新已经时隔1个月,因为我。。。期末考试了。。。

提示:阅读本文预计需要15分钟,如果一边看一边做,大约需要2小时,搭建这样一个机器学习环境,不需要你有任何AI或者机器学习的背景,但如果你会一些VMware或者Linux的基础,会快捷很多,最终我们会用一组数据来进行客户流失分析预测。

环境版本:本教程为通过VMware 14.0在Ubuntu 16.04麒麟版上,安装Anaconda5.0.1框架(机器学习框架)并解决一个实际业务问题,Python基于3.6,各种包通过Anaconda自己打,本文写于2018年1月18日,如果你在多年后看到此文,请直接关闭页签即可,我相信那个时候早就不是我写得版本和步骤了。

进行实战操作前,依然推荐你看看本号之前的理论基础文章,有一个正确的认识,机器学习,深度学习到底占了AI的多少,一个正确的大局观,将对我们后续的学习很有帮助。

人工智能的六大领域

01、计算机视觉

02、认知推理

03、自然语言

04、博弈决策

05、机器学习

06、机器人学

一、在Windows操作系统下,安装VMware虚拟机14.0版,并在虚拟机里安装Ubuntu 16.04麒麟版:

为什么在Linux环境下玩AI的机器学习?因为Linux不吃性能,可能更大程度发挥机器的效率,Windows并不是一个很好的联系机器学习的平台,性能堪忧,越往后,你会发现有算力强的机器的优势。。。

Ubuntu官方网站:

https://www.ubuntu.com/index_kylin

装完之后是这个样子,我建立了一个账户,真名是Victor,昵称TensorFlow,这里有坑,后面说到我忘了密码,需要Linux重置的时候,怎么折腾...

二、安装Python开发环境:Anaconda

这里。。。如果你还是自己下载Python,然后自己一个个装包,说实话,这是1年前的玩法了,我大概一年前也是自己装的,当时还要犹豫装Python2.7还是3.5版本?然后回遇到一大堆的安装Python模块包的问题,此处可以百度解决,但是坑还是不少的,反正第一次装的话,麻烦事不少,而且网上不少会误导你,而如果你是从来没有玩过Python的,那我倒是不反对你这么装,毕竟可以自己熟悉一下几个基本的包,比如numpy,sk-learn等~

但是在2018年的今天,如果你玩了一段时间的Python和机器学习了,但是你不知道Anaconda,对不起,同学,你落伍了。。。它一方面解决了安装环境的痛苦,各种包的搭配问题,同时,在编程可视化,DEBUG层面极为突出,Python自己的Console框是一个小黑框,对于我这种不是做服务器管理的,而是编程出身的人而言,看到命令行console界面是有天生的恐惧感的,所以,跟着我用Anaconda框架吧。

直接到Anaconda的官网,下载3.6对应的Linux版,目前版本是5.0.1,主要Python的版本和操作系统版本,我装的是64位的:

OK,我默认你是有Linux基础的,知道怎么在Linux下安装程序,如果实在不会,请百度一下,bash啊,vi这些命令就算不做Linux管理,大致怎么用还是可以了解一下的,

安装命令:

bash -rf Anaconda3-5.0.1-Linux-x86.sh

注意换你的版本号,根据你实际的下载文件名称和位置更换。

安装Anaconda过程特别要说的就是,最后会有一个提示命令是这样的:

默认是no,我强烈建议你选yes,我想试试自己设置,结果输入了no,然后至少花了2个小时通过不下10种方法,设置path,就是不行,最后还是重装的Anaconda,选择yes解决的问题,个人感觉自己智商不高,但肯定也够用,此处应该是有深坑,因为百度和google一堆问怎么设置不成功...另外多说一句,卸载其实直接删除整个Anaconda的目录就行了:

rm -rf anaconda

安装成功后,如何测试OK了?

先是

python

进入到Python开发环境后,可以看一下版本,3.6就说明没有太大问题,因为Ubuntu一般默认是2.7的版本,不过还是可以

import scipy

加载scipy一下,不报错就证明成功了,这个包的安装有多坑,相信装过的人都知道。。。

另外,可以用这个命令看到Anaconda的版本,不报错也证明成功了

conda -V

Linux是区分大小写的,注意大小写,其他命令大家自己试试,比如conda list,可以看到装了哪些包,茫茫多,自己打还真是费劲。

三、运行开发环境:Anaconda,并尝试加载数据

好了,接下来是好用的地方了,我们装了Anaconda不仅仅是为了打Python的环境和那些包,附送的可视化工具也是棒棒的,比如这个我非常喜欢的jupyter:

在自己的文档目录下新建一个文件夹,比如demo-customer-churn-ann,然后右键打开一个新的命令窗口,输入:

jupyter notebook

然后需要等大概10-20秒左右,依据你的机器性能有差异,会打开一个浏览器,并且看到这样的界面:

jupyter自带了可视化的文档管理工具,这里面的内容是我提前下载好的一个客户流失分析数据源,大概1万条数据。

好了,现在假设你已经获取了文件,并且放到了新建的目录下,并且从新建的目录启动了jupyter,现在可以输入这些代码然后,点击run来看一下输出效果,比Python的那个黑框强多了,有没有?

首先,读入数据清理最常用的pandas和numpy包。

import numpy as npimport pandas as pd

从里读入数据:

df = pd.read_csv('customer_churn.csv')

看看读入效果如何:

df.head()

这里我们使用了函数,只显示前5行。

OK,到这里话,我们先暂停一下,后续的coding并不是很难,我们先跳出来,整理一下思路,然后在下一个文章里,我们将继续完整地完成这个客户流失分析的案例,在我等待的这一周内,请先确保自己环境安装正确,如果实在安装不成功,你也可以向Victor索取安装好的VWmare环境,用户名TensorFlow,密码:Python,索取方式自然是关注本公众号后发送消息,所以赶快安装环境吧,如果有任何问题可以给我留言。

编者按:(本公众号已经受邀加入了原创保护,欢迎转载,但如有转载请注明出处)。

======================

扫描关注微信号,获取更多有价值信息。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180118G0MXZ700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券