数据科学,这里包括机器学习,数据分析和数据可视化。
假设你想开发一个能够自动检测图片内容的程序。给出图1,你希望程序识别这是一只狗。
01
机器学习是什么
图1
给出图2,希望程序能识别这是一张桌子。
图2
你可能会说,我可以写一些代码来做到这点。例如,如果图片中有很多浅棕色像素,那么可以识别是狗。
或者可以检测图片中的边缘,如果有很多直的边缘,那么就是桌子。
但这种方法很快就不好用了。如果图片中的狗不是棕色毛的怎么办?如果图片只显示桌子的圆形部分怎么办?
这里就需要用到机器学习了。
机器学习通过实现算法,该算法能够自动检测输入中的模式。
例如,你将1000张狗的图片和1000张桌子的图片输入给机器学习算法,让它掌握狗和桌子间的区别。那么当你给出新的图片让它识别是狗还是桌子时,它就能够进行判断。
这有点类似孩子学习新事物的方式。孩子是如何学习认知狗或桌子的呢?就是通过大量的例子。
你不会明确告诉孩子:“如果某个毛茸茸的东西有浅棕色的毛发,那么就可能是狗。”
你会说,“这是狗,这也是狗。而这是桌子,那个也是桌子。“
机器学习算法的方式大致相同。
我们可以将相同的想法应用于:
以及其他应用。
你听过的热门机器学习算法包括:
你可以使用上述任何算法来解决前面提到的图片标签问题。
02
将Python用于机器学习
有一些热门的机器学习库和Python框架。其中两个最热门的是scikit-learn和TensorFlow。
如果你刚开始进行机器学习项目,我会建议你先从scikit-learn开始。如果你开始遇到效率问题,那么可以使用TensorFlow。
03
数据分析和数据可视化
假设你在一家在线销售产品的公司工作。作为数据分析师,你会绘制这样的条形图。
形图1 - 用Python生成
从这张图中可以看到在某个周日,男性用户购买了400多件产品,女性用户购买了350件产品。
作为数据分析师,对此你会提出一些可能的解释。明显的解释是,该产品在男性用户中更受欢迎。另一种是样本量太小,而这种差异是偶然的。还可能呢是由于某种原因,男性往往在周日才购买该产品。
为了理解哪种解释是正确的,你可以绘制另一个图
折线图1 - 用Python生成
不止看周日的数据,还要看到一周的数据。从这张图表中可以看出,在不同的日子里这种差异比较一致。
从这个分析中你会得出结论:这种产品在男性中比在女性中更受欢迎。
但如果你看到像这样的图表呢?
折线图2 - 用Python生成
那么,怎么解释周日的差异呢?
你可能会说,也许出于某种原因男性只在周日才会更多地购买这款产品。或许这只是巧合。
我在谷歌和微软工作时所做的数据分析工作与这个例子非常相似,只是更复杂一些。在谷歌时我使用Python进行分析,而我在微软使用JavaScript。
在这两家公司我都使用SQL从数据库中提取数据。然后,我用Python和Matplotlib(在谷歌)或JavaScript和D3.js(在微软)来可视化和分析这些数据。
04
使用Python进行数据分析/可视化
进行数据可视化时,Matplotlib是非常热门的库。
Matplotlib很棒,因为:
05
如何用Python学习数据分析/可视化
你首先应该了解数据分析和可视化的基础知识。在学习了数据分析和可视化的基础知识之后,学习统计学基础知识也将会很有帮助。