专栏首页数据派THU独家 | 数据科学入门指南:新手如何步入数据科学领域?

独家 | 数据科学入门指南:新手如何步入数据科学领域?

作者:Sangeet Aggarwal

翻译:陈之炎

校对:冯羽

本文长度为2900字,建议阅读6分钟

本文将带大家讨论如何从零开始数据科学之旅。

标签:数据科学,机器学习

数据科学,据说是本世纪最吸引人的工作,已经成为我们许多人梦寐以求的工作。但对某些人来说,数据科学看起来像一个充满挑战的迷宫,让人无从下手。如果你也是其中之一,那就继续阅读。

在本文中,我将讨论如何从零开始数据科学之旅。我将详细解释以下步骤。

  • 学习Python编程的基本知识
  • 学习基本统计学和数学
  • 学习使用Python进行数据分析
  • 学习机器学习
  • 项目实战

学习Python编程的基本知识

如果有IT背景的话,你可能已经熟悉Python编程,此时,你可以跳过此步骤。但是如果从未接触过编码的话,应该从学习Python开始。在所有编程语言中,Python语言最容易学习,它被广泛用在开发中,也被用在数据分析中。

首先,可以搜索免费的在线教程,这些教程将有助于理解Python的基础知识。我列出了下述一些链接,这些教程可以帮助你在短时间内自学Python。可以尝试一下,自己作出选择。

  • learnpython.org(https://www.learnpython.org/)
  • 谷歌的Python类
  • Estudy免费Python课程(视频教程)
  • 代码学院(使用在线编辑器编程)

上述列表并非详尽无遗,你可以在网络上找到更多其它的资源,这些资源助力学习Python的基础知识,此外,你还可以在YouTube上找到许多为初学者提供的Python教程。

一旦掌握了编程语法和其他基础知识之后,你就可以开启Python的中级和高级学习之旅。要做到在数据科学领域游刃有余,我建议你至少学完中级,这样可以熟悉Python中的数据结构和文件系统。

下一步。

学习统计学和数学

数据科学是分析数据并得出有用的和可操作的见解的技能。为此,必须具备基本的统计学和数学知识。虽然不要求你成为一个伟大的统计学家,但需要对数据分布和算法原理这些基础知识有所了解。 话虽如此,来看看需要学习哪些内容。

首先,复习一遍高中的统计课程,对基本概念有所了解。为此,我推荐可汗学院的“高中统计”系列课程(根据自己的实际情况做出选择)。

刷完高中统计课之后,可以开始阅读以下任何一本书:

  • 统计学习简介(R语言)(强烈推荐)
  • 统计思维(Python语言)

后台回复“20200528”可获取这些书籍的各自pdf版本,你也可以根据需要方便地购买到纸质的书。读完这些书之后,你将熟悉数据分析的基本原理,对进一步深入学习有帮助。

注意:虽然我建议你从学习Python语言来开启数据科学之旅,但在学习过程中,你会遇到其他几个工具,如R,它们也用于统计计算和数据分析。我的一般建议是,无论你遇到哪一个工具,都要有一个开放的心态。如果你正在使用两种不同的语言执行任务,其底层工作和逻辑通常是相同的,这只是一个不同的语法和框架问题。

第一次体验数据分析。

学习Python进行数据分析

这便是它的有趣之处,在掌握了了Python编程的基本知识和统计之后,是时候一试身手了。

如果想在不付钱的情况下学习,你只需在Udacity上开设一个帐户,注册免费课程-数据分析入门。这门课程将介绍数据分析所需用到的Python库,如Pandas和Numpy。你可以按部就班地学习,在几周内轻松完成课程。

在Udacity上还有许多其他课程可以探索,此外,Udacity还提供Nanodegree程序,但通常需要付费。如果你愿意为学习付费,还有许多好的平台,如Coursera、Dataquest、Datacamp等。

在此步骤结束时,应该掌握Python的一些重要库和数据结构,如序列、数组和数据框。

还应该能够执行诸如数据处理、得出结论、矢量化操作、分组数据和组合来自多个文件的数据等任务。

虽然已经为下一步做好了准备,但在继续前进之前还有一件事需要学习:桥接数据分析与机器学习之间的终极关键-数据可视化

数据可视化是数据分析的重要组成部分,它有助于得出结论并对数据模式可视化。为此,学习如何可视化数据势在必行,学习数据可视化最简单的方法是通读Kaggle的数据可视化课程。在此之后,你将熟悉一个重要的Python库-Seaborn。

注:Kaggle是一个受世界各地数据科学家欢迎的网站。它定期举办竞赛,以挑战数据储备的技能,并为数据爱好者提供免费的交互式课程。

太棒了!你已经学了一半以上的数据科学了。继续下一步,即机器学习。

学习机器学习

机器学习,顾名思义,是机器(计算机)自我学习的过程。通过对计算机算法的研究,自动提升经验。根据数据和业务问题的类型,使用预定义的算法建立模型,这些模型在给定的数据上进行自我训练,然后被用在新数据上以得出结论。

掌握机器学习最简单的方法就是按照给定的顺序学习以下Kaggle的课程:

  • 机器学习概述
  • 中阶机器学习
  • 特征工程(优化模型)

条条道路通罗马,虽然有许多其他的方法来学习机器学习,我提出的是最简单的方法,完全免费。如果没有资金的约束,还可以在Coursera、Udacity和其他相关平台上找到各种课程。

当这一步结束时,您将了解监督机器学习和无监督机器学习之间的区别,同时,掌握各种重要的算法,如回归,分类,决策树,随机森林等。

太棒了!从此,可以冲破迷宫加入到数据科学俱乐部,之后,需要做的便是一步一步成为更好。

项目实战

读到这里,你便拥有了成为一名成功的数据科学家所需的一切。在掌握了所有的知识之后,应通过尽可能多的练习来增强它。要做到这一点,可以寻找一些项目,去解决一些商业问题。

坚持实践的最好方法之一是参加Kaggle比赛。Kaggle为你提供需要解决的问题和所需的数据。如果是一场比赛,你可以提交自己的结果,并根据获得的分数得到排名。

也可以在个人项目上建立自己的组合,通过尝试以下资源来探索数据集:

  • Kaggle数据集
  • UCI机器学习仓库
  • 亚马逊数据集
  • 谷歌数据库搜索引擎

为了练习,建议在本地计算机中下载并安装Anaconda, 这是开发数据科学项目的一个很好的工具包。在Anaconda众多工具中, Jupyter Notebook是构建Python项目的一种很好的方法,并帮你管理你的项目组合。

遵循本博客中的指导方针,将助力实现学习数据科学的目标,当然,在这一领域还有大量知识要学习,甚至更多的东西有待探索。继续学习吧。

原文标题:

Data Science from scratch How to step into Data Science as a complete beginner

原文链接:

https://towardsdatascience.com/data-science-from-scratch-4343d63c1c66


如您想与我们保持交流探讨、持续获得数据科学领域相关动态,包括大数据技术类、行业前沿应用、讲座论坛活动信息、各种活动福利等内容,敬请扫码加入数据派THU粉丝交流群,红数点恭候各位。

译者简介

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步。

转载须知

如需转载,请在开篇显著位置注明作者和出处

本文分享自微信公众号 - 数据派THU(DatapiTHU),作者:Sangeet Aggarwal

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 独家|盘点5个TensorFlow和机器学习课程,程序员福利(附资源)

    本文为你介绍5个有关TensorFlow的机器学习课程,来帮助你进一步了解数据科学和人工智能。

    数据派THU
  • Python 3.8.0来了!

    那么,这次新发布的 Python 3.8.0 有哪些重要的改进呢?以下是 Python 3.8 相比 3.7 的新增特性。

    数据派THU
  • 超全Python速查表登上GitHub热榜,标星4600+!(附链接)

    GitHub上出现一份对Python用户非常友好的资源:Python Cheatsheet。

    数据派THU
  • 极简Python:数据分析与机器学习最小化知识库

    我们正处于一个数据科技(Data Technology,DT)时代。在这个时代,我们的一举一动都能在数据空间留下电子印记,于是海量的社交、电商、科研大数据扑面而...

    用户1682855
  • 学了这么久,你知道Python机器学习全流程是怎样的么?

    万事开头难,首先Python机器学习整个流程的第一步就是学习Python这门编程语言的相关基础知识。

    小小科
  • 【机器学习】何谓机器学习 机器学习能做些什么?

    最近我和一对夫妇共进晚餐,他们问我从事什么职业,我回应道:“机器学习。”妻子回头问丈夫:“亲爱的,什么是机器学习?”她的丈夫答道:“T-800型终结者。”在《终...

    陆勤_数据人网
  • Python机器学习(数据科学与工程技术丛书)

    Sebastian Raschka是密歇根州立大学的博士生,他在计算生物学领域提出了几种新的计算方法,还被科技博客Analytics Vidhya评为GitHu...

    用户3157710
  • 7年程序员贡献出来的10大Python开源免费工具!

    毫无疑问,Python是最流行的语言之一,其成功的原因之一是它为科学计算提供了广泛的报道。 在这里,我们仔细研究用于机器学习和数据科学的十大Python工具。学...

    一墨编程学习
  • 现在你也可以拥有大量资源了!用python爬取电影链接!

    推荐下小编的Python学习群542110741,不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2018最新的Python和0基础入...

    云飞
  • 没错,就是Python!我力挺的原因就是...

    而近期,数据科学网站KDnuggets,发布的2018数据科学和机器学习工具调查结果也显示:Python荣登第一,成为最受青睐的分析、数据科学、机器学习工具。2...

    AI科技大本营

扫码关注云+社区

领取腾讯云代金券