专栏首页华章科技如何真正学好数据科学?

如何真正学好数据科学?

来源:沈浩老师(公众号ID:artofdata)

译者:姜志勇

作为一个全新的领域,数据科学的飞速发展让人激动。数据科学在带来巨大经济效益的同时,人们在数据科学技术方面的知识沟也逐渐出现,这意味着更多的人需要试图了解和学习数据科学。

“我该如何学习数据科学”这个问题是初学者需要迈过的第一个门槛。大家在解决这个问题的时候,通常采用的办法是给自己安排一大串的课程去学习,当然还有一大摞的课本来阅读,线性代数和统计学成为大家必须要打交道的“新朋友”。我们使出了“洪荒之力”拼了命地学习,我们甚至没有编程的学习背景,但是我们相信有有朝一日一定可以具备处理数据的能力。

但这个过程往往充满了头痛,因为我们找到了海量的学习资源,却依旧找不到学习的方法,就像临考前你的老师告诉你书上的“都是重点”一样。我们在学校里按照这样的方法读了这么多年的书,如果数据科学的学习仍要如此循规蹈矩,大概很多人会半途而废吧。

但不可否认,有一些人是通过读海量的书获得成功的,但我更建议大家去不断积累和尝试。比如,当我们在一些小事中获得启发的时候,我们的学习之路便开启了。我们心中应该清楚为了什么而学,只有这样我们才可以及时掌握到有用的技能。

这就是为什么我不认为你的第一个目标应该是学习线性代数或统计数据。如果你想学数据科学,你的第一个目标应该是学会爱数据。如果你感兴趣,我将带你一起了解如何真正学到科学数据的方法。

一个数据科学帮助下完成的可视化案例

(选自《经济学人》)

1学会热爱数据

我们一味地学习新技术,却很少关注自己的学习动机。数据科学是一个广泛甚至有些模糊的领域,这使它很难掌握。如果没有动力,你很可能学到一半就开始自我怀疑。我知道这不怪你,因为你只是没得到正确的指导。

你需要找到一些能够激励你学下去的事物,找到了它,即使偶尔的熬夜让公式们看起来模糊,你也仍然会欣然地浮想联翩,你甚至想到这也许是神经网络在发挥作用。你需要在学习中找到一些“桥梁”,一些能让统计学、线性代数和神经网络联系到一起的桥梁。找到了它,你也就自然而然地不会被“接下来我该学什么”这样的问题所困惑。

我学习数据科学的起点是预测股市,尽管那时候我对它不甚了解。在早期的一些程序中,我没有经过统计就开始编码进行预测,尽管我知道可能预测的误差比较大,我仍然日以继夜的完善,以求做到更好。我着迷于改善程序的表现,渐渐地我发现我也开始痴迷于股票市场。因为不断让自己学着去热爱数据,我产生了学下去的更多动力,我想要使我的程序更加完美。

我知道并不是所有人都痴迷于股市,但它对于我它却如此重要,因为正是股市激发了我,并帮助我找到真正想学的东西。

数据科学的伟大之处在于你可以和成千上万有趣的事物一起工作:它可以找出你所在城市中新鲜有趣的东西;在地图上标出互联网上所有的设备;以年的频率更新世界各地的难民位置…这一切的一切,都是在发现问题,然后努力去找到解决问题的答案。

存在于互联网上的设备

2通过实际操作来学习数据科学

学习神经网络、图像识别和其他尖端的技术是很重要的,但遗憾的是大多数的数据科学并不是直接教授你这些的:

  • 90%的时间都是在做数据清理
  • 懂得一些算法比一无所知要好很多
  • 如果你了解线性回归、K-means聚类和逻辑回归,能够解释和翻译它们的结果,并且能够从头到尾的完成整个步骤,你将比那些了解单个算法但不会使用的人,更受用人单位的青睐。

这些都在告诉我们,最好的学习办法就是进入项目组去一同工作。通过项目组的合作,你可以快速获得一些实用性和用处很大的技能。当然,你也能够通过这种途径找到自己的投资拍档。

项目的开始,你需要找到一个不错的数据集,然后回答一个你感兴趣的问题,开始不断重复清洗。以下是一些寻找数据集的好去处:

  • 100+ Interesting Data Sets for Statistics
  • Datasets subreddit
  • UCI machine learning repository

另一种方法是找到一个深层问题。比如预测股票市场,其实可以拆分成很多小的步骤。我第一次连接到雅虎财经API的时候,我获取到了每日的价格数据;然后我创建了一系列的指标,比如过去一段时间里的平均价格,然后运用它去预测未来的趋势。这里并没有用到真正的算法,仅仅是技术上的分析。后来我发现这样的办法并不奏效,于是我开始学习统计学,掌握线性回归的办法。我之后又连接到另一个API,抓取到了每一分钟的数据,并把它们保存到一个SQL数据库,如此反复,直到我的算法越来越完美。

这样做的好处是为我之后的学习找到了方向。我不仅学习了SQL语法,我还运用它储存了关于价格的数据。这恰恰说明只学习而不操作,最终只能是徒劳无功的,并且对于你今后从事数据科学的工作起不到半点作用。

显然,图片里的人想要预测股市离不开数据科学

(选自《每日邮报》)

3学会和别人沟通你的见解

数据科学家需要不断地向别人传达他们的技能和研究结果,这一点,恰恰也是一个合格的数据科学家和一个伟大的数据科学家之间的区别。虽然沟通的理念有时候很复杂,但这里有一些你可以尝试做的事情:

  • 开通一个博客,发表你的数据分析成果
  • 多向你的朋友和家人练习讲授数据科学的理念,你会惊奇地发现,自己在这个过程中对数据科学的领悟会不断加深
  • 学会在聚会上演讲
  • 使用github来掌控所有的分析
  • 多浏览一些诸如Quora和DataTau的社区

4向你的同行学习

你会惊奇地发现和别人团队合作能学到很多东西,在数据科学领域,团队合作甚至在岗位设置上非常重要,这里我有一些想法:

  • 利用聚会寻找能够一起合作的人
  • 为开源软件包做贡献
  • 给那些常常写相关博客的人发消息以寻求合作
  • 积极参加数据科学竞赛,你可以从中结识到很多朋友

5不断给自己增加新的困难和挑战

你是否对你从事的项目已经轻车熟路?你是否已经很久没有尝试一个新的理念了?那么,你需要一些更高一等级的困难来磨练自己了。数据科学是一座需要一步一步攀登的高山,如果你安于现状,你将很快被淘汰。如果你觉得自己已经太安逸于所学,这里有一些建议给你:

  • 尝试处理更大的数据集
  • 看看是否可以使你的算法更快
  • 如何将算法扩展到多个处理器?你能做到吗?
  • 尝试理解你使用做多的算法,看看它们是否改变了你的假设?
  • 尝试教一些新手你正在做的事情

学习任何新知识都需要正确的方法,数据科学也是如此。当你想要达到一个很远的地方时,你的手里首先需要一个合适的指导方针。任何人都可以学习数据科学,只要你能保持一个正确的心态。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文分享自微信公众号 - 大数据(hzdashuju)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 亚马逊数据专家十年经验总结:成为数据科学家的关键四步

    但是,怎样才能成为数据科学家?或者说,一个合格的数据科学家需要具备哪些技能和素养?

    华章科技
  • 你的公司是否真的需要大数据战略?

    我们认为,企业应该重视数据统治和数据管理。如果数据是一个企业最重要的资产,然后常规的数据统治项目和数据管理最佳实践是其能够实现的多数投资策略。如果只有其中一种投...

    华章科技
  • 大数据融合,电信运营商岂能再错过?

    大数据的跨界、交叉融合及基于此的知识与价值创造是大数据价值化的必由之路。在大数据产业链中,拥有数据且靠近最终用户的公司将拥有越来越大的发言权。电信运营商应抓住机...

    华章科技
  • 八步拿下数据科学,攻克 “21世纪最性感的工作”

    在数据科学(Data Science)领域,除了“什么是数据科学”这个问题以外,大家最感兴趣的问题就是“如何学习数据科学?”其实这个问题除了新手会问,有时候领域...

    AI科技评论
  • 八步拿下数据科学,攻克 “21世纪最性感的工作”

    在数据科学(Data Science)领域,除了“什么是数据科学”这个问题以外,大家最感兴趣的问题就是“如何学习数据科学?”其实这个问题除了新手会问,有时候领域...

    智能算法
  • 从小白到年薪10万+,优秀的数据分析能力如何速成?

    广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网...

    机器学习AI算法工程
  • 数据分析师的基本素养——论如何成为一名数据科学家(一)

    摘要:本系列文章是Quora网站上"如何成为一名数据科学家"问题的高分答案集锦,来自不同领域的数据大咖们结合自己的切身经验,分享了对数据科学家成长之路的看法,可...

    小莹莹
  • 亚马逊数据专家十年经验总结:成为数据科学家的关键四步

    编者按:本文作者 Karolis Urbonas,文章选自他个人博客。AI 研习社编译。 对于数据科学家这一职业,你了解多少? ——这是个被大公司追捧的职位,供...

    AI研习社
  • 做过120个项目的“老兵”谈复星集团的大数据布局 | 数据科学50人· 甄浩

    如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家...

    DT数据侠
  • 一文总览数据科学全景:定律、算法、问题类型...

    作者:Pradeep Menon 翻译:王瑞玺 校对:梁傅淇 本文约3000字,建议阅读时间8分钟。 Pradeep Menon是一位在大数据,数据科学,数据架...

    数据派THU

扫码关注云+社区

领取腾讯云代金券