如何以Python为工具走入数据科学之门

本次分享第【1】部分:什么是数据科学

本次分享第【2】部分:如何从小白成长为数据科学家

分享主题:Data Science学习分享会

分享时间:2016年4月18日晚8:00-10:00

分享地点:赤兔“数据挖掘”小组,线上

分享嘉宾:黄逸洲,来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。

下面根据作者的经验,为大家提供一条基于python的数据科学入门之路。

开始学习之前,你可以问一下自己,什么是python?python对于数据科学会有什么帮助?

上图显示了python依然是比较受欢迎的一种语言。用这样的语言作为工具学习数据科学理论并实践,你会在路上遇到很多同道,遇到的问题很容易找到老师请教,还会有很多别人已经做好的开发包可以拿来使用。

学习的第一步当然就是配置环境,学习python基础,解决一些python问题,编写一些简单的python脚本。

推荐可以安装Anaconda,里面把各种包已经安装好了,也提供python和ipython供大家使用,比较方便。

python基础网上有很多很好地资料,如codeademy或者上一些mooc的课程,都很容易上手。

学好python基础就可以学习正则表达式,和进行简单的爬虫训练,beautifulsoup和scrapy都是很好地工具。

推荐coursera上的一门课:Learn toprogram and analyze data with Pythonn,里面从python基础,网络爬虫,再到网络的一些知识,如HTTP,TCP/IP都有所涉及,是很好的入门课程。

学习好一些基础知识之后,就是要知道怎么利用一些更为专业的科学库来处理和分析数据:

  • pandas和numpy都是经常会用到的包;
  • matplotlib是一个很好的数据成像包;
  • 数据可视化可以使用Tableau和D3等工具很容易的实现;
  • 机器学习则需要用到scikit-learn这个包,里面提供了很多算法函数,方便大家进行数据分析;
  • machinelearning推荐的课程当然就是Andrew Ng在coursera上的机器学习,浅显易懂,不需要太多数学基础;
  • 如果要进阶看更多理论方面的东西的话,推荐Andrew的CSS229。

这是十个最常用的机器算法,大家可以利用opendataset来训练一下自己:

另外,推荐Kaggle和Analytics Vidhya,里面有很多教程和比赛机会。说不定你的解法还能赢得比赛,拿到大奖。

最后当然是如今的热点VR和AI。如果有精力和兴趣的话可以学习deeplearning的知识以及神经元网络。

数据科学家和艺术家一样都需要自己的作品集来展示自己,在应聘中也是很有帮助的。

推荐陈丹奕老师在知乎上得专栏,很好的介绍了整个数据报告的生成过程。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2016-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

教程:如何做好大屏数据可视化设计

大屏数据可视化设计方法论很少,正好自己参与过部门多个大屏项目,所以总结了大屏可视化设计的方法。希望通过这篇文章能帮助大家整理思考过程,提高工作效率,同时很好的达...

68730
来自专栏人工智能头条

专访陈天奇:DMLC发起人与机器学习的故事

2.2K80
来自专栏PPV课数据科学社区

【学习】网站数据分析:网站用户忠诚度分析

忠诚用户不仅能为网站创造持续的价值,同时也是网站品牌口碑推广的重要渠道,所以目前网站对忠诚用户愈加重视。可能很多网站或者网站分析工具对用户做了“新用户”和“回访...

369100
来自专栏AI科技评论

Facebook 所谓的“人工智能母体”FBLearner Flow 究竟是如何工作的?

Facebook昨天第一次正式介绍了FBLearner Flow,一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人...

73270
来自专栏人工智能头条

[访谈]数据大师Olivier Grisel给志向高远的数据科学家的指引

18620
来自专栏机器之心

资源 | 横向对比5大开源语音识别工具包,CMU Sphinx最佳

选自svds 作者:Cindi Thompson 机器之心编译 参与:李泽南、Smith 目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了...

84460
来自专栏TEG云端专业号的专栏

谈谈服务器运营领域的机器学习

本文我们来谈谈近几年机器学习在服务器运营领域的一些实践。

73580
来自专栏PPV课数据科学社区

哪一种编程语言适合人工智能?——Python在人工智能中的作用

? 谷歌的AI击败了一位围棋大师,是一种衡量人工智能突然的快速发展的方式,也揭示了这些技术如何发展而来和将来可以如何发展。 人工智能是一种未来性的技术,目前正...

44760
来自专栏媒矿工厂

Facebook VR方案总结(二)

前言 VR技术是目前最受关注的前沿科技之一,受到了各家互联网公司的青睐,但这并不是首次。实际上,VR在发展史上经历了三次热潮。第一次热潮发生在上个世纪60年代,...

613100
来自专栏PPV课数据科学社区

【翻译】数据科学的多语言协作编程方式:Python + R + SQL

在这篇文章中,我将试图使用一种新的方法来介绍数据科学编程。 R vs. Python question中集中谈论了数据科学编程的问题,每个人都...

34540

扫码关注云+社区

领取腾讯云代金券