前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何将Python应用于数据科学工作

如何将Python应用于数据科学工作

作者头像
CDA数据分析师
发布2019-08-30 11:21:12
1K0
发布2019-08-30 11:21:12
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

数据科学,这里包括机器学习,数据分析和数据可视化。

假设你想开发一个能够自动检测图片内容的程序。给出图1,你希望程序识别这是一只狗。

01

机器学习是什么

图1

给出图2,希望程序能识别这是一张桌子。

图2

你可能会说,我可以写一些代码来做到这点。例如,如果图片中有很多浅棕色像素,那么可以识别是狗。

或者可以检测图片中的边缘,如果有很多直的边缘,那么就是桌子。

但这种方法很快就不好用了。如果图片中的狗不是棕色毛的怎么办?如果图片只显示桌子的圆形部分怎么办?

这里就需要用到机器学习了。

机器学习通过实现算法,该算法能够自动检测输入中的模式。

例如,你将1000张狗的图片和1000张桌子的图片输入给机器学习算法,让它掌握狗和桌子间的区别。那么当你给出新的图片让它识别是狗还是桌子时,它就能够进行判断。

这有点类似孩子学习新事物的方式。孩子是如何学习认知狗或桌子的呢?就是通过大量的例子。

你不会明确告诉孩子:“如果某个毛茸茸的东西有浅棕色的毛发,那么就可能是狗。”

你会说,“这是狗,这也是狗。而这是桌子,那个也是桌子。“

机器学习算法的方式大致相同。

我们可以将相同的想法应用于:

  • 推荐系统
  • (比如YouTube,亚马逊和Netflix)
  • 人脸识别
  • 语音识别

以及其他应用。

你听过的热门机器学习算法包括:

  • 决策树
  • 神经网络
  • 深度学习
  • 支持向量机
  • 随机森林

你可以使用上述任何算法来解决前面提到的图片标签问题。

02

将Python用于机器学习

有一些热门的机器学习库和Python框架。其中两个最热门的是scikit-learn和TensorFlow。

  • scikit-learn带有一些内置的热门机器学习算法。
  • TensorFlow是一个低级库,能让你创建自定义机器学习算法。

如果你刚开始进行机器学习项目,我会建议你先从scikit-learn开始。如果你开始遇到效率问题,那么可以使用TensorFlow。

03

数据分析和数据可视化

假设你在一家在线销售产品的公司工作。作为数据分析师,你会绘制这样的条形图。

形图1 - 用Python生成

从这张图中可以看到在某个周日,男性用户购买了400多件产品,女性用户购买了350件产品。

作为数据分析师,对此你会提出一些可能的解释。明显的解释是,该产品在男性用户中更受欢迎。另一种是样本量太小,而这种差异是偶然的。还可能呢是由于某种原因,男性往往在周日才购买该产品。

为了理解哪种解释是正确的,你可以绘制另一个图

折线图1 - 用Python生成

不止看周日的数据,还要看到一周的数据。从这张图表中可以看出,在不同的日子里这种差异比较一致。

从这个分析中你会得出结论:这种产品在男性中比在女性中更受欢迎。

但如果你看到像这样的图表呢?

折线图2 - 用Python生成

那么,怎么解释周日的差异呢?

你可能会说,也许出于某种原因男性只在周日才会更多地购买这款产品。或许这只是巧合。

我在谷歌和微软工作时所做的数据分析工作与这个例子非常相似,只是更复杂一些。在谷歌时我使用Python进行分析,而我在微软使用JavaScript。

在这两家公司我都使用SQL从数据库中提取数据。然后,我用Python和Matplotlib(在谷歌)或JavaScript和D3.js(在微软)来可视化和分析这些数据。

04

使用Python进行数据分析/可视化

进行数据可视化时,Matplotlib是非常热门的库。

Matplotlib很棒,因为:

  • 容易上手
  • seaborn等库是基于它的,学习Matplotlib可以帮助你以后学习其他库。

05

如何用Python学习数据分析/可视化

你首先应该了解数据分析和可视化的基础知识。在学习了数据分析和可视化的基础知识之后,学习统计学基础知识也将会很有帮助。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档