前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何有效学习数据科学?

如何有效学习数据科学?

作者头像
万能数据的小草
发布2024-07-23 15:21:04
650
发布2024-07-23 15:21:04
举报
文章被收录于专栏:万能的小草

原作者:理查德·瓦勒潘(warepam)。小草编译。 推荐理由:实用。原文地址:https://medium.com/illumination/how-to-effectively-learn-data-science-in-2024-b3f508db4f67

一直以来我都是一个靠自己学习的人。关于编程和商业的一切都是在没有导师的情况下学到的。当然,这并不容易,但我喜欢自学之旅的每一步。

你呢?也在走自学之路吗?

接着来与您分享一些令人兴奋的事情。与早年相比,今天的自学是轻而易举的事。那么游戏规则的改变者是什么呢?— AI 工具,尤其是 ChatGPT。

这就是一位助手、导师合而为一。

在本文中,我将深入探讨“从哪些主题开始”和“如何处理它们”,此外我还将提供一些超级有用的提示。

准备好踏上这段旅程了吗?让我们深入了解吧!

了解基础知识

在这里,不会解释所有的主题;相反,将指出需要学习的内容才能开始数据科学之旅。

1. 统计:

现在,先来谈谈很多自学者在深入研究数据科学时遇到的一个大问题。

通常,他们会跳过“统计学习”,直接转向 Python、SQL 或其他技术内容。

但我的建议是:从“统计学习”开始

在进入其他领域之前,要真正花时间在上面并认真对待它。这是成为出色的数据向导的关键一步。

🎯统计待办事项清单:A.概率论 B.描述性统计 C.推论统计 D.统计机器学习

2. 编程技巧

那么,你握了统计的窍门吗?接下来,是时候选择一种编程语言来提高您的数据科学技能了。

这里有两个非常好的选择:Python和R。

现在,应该选择哪一个?这完全取决于感觉舒服的程度。

但是,如果你问我,我会说Python 是一个超级选择。

为什么? — 因为它超级通用且易于掌握。另外,Python 还包含大量库。这些就像工具包一样,可以让您的工作变得更加轻松无论您是在处理数据进行复杂的计算还是其他任何事情。

另一方面,还有 R。R 非常棒,特别是如果您只关心统计的话。它就像统计分析的首选语言。但请记住,这主要是关于统计数据。

因此,请考虑您需要什么并选择适合您的。

如果您想成为数据科学领域的多面手,Python 可能是您最好的选择!

🎯 Python 待办事项清单

Python基础知识Pandas 和 NumPy 库(DataFrame 基础知识和操作)

可视化(Matplotlib 和 Seaborn 库)

数据抓取(BeautifulSoup、Scrapy、Selenium 或 Requests 库)错误处理和调试

3. EDA——数据整理和可视化

刚刚迈出了进入 Python 世界的第一步——恭喜!现在,来谈谈接下来会发生什么。

作为数据科学的新手,很容易认为这就是深入研究数据以找到那些令人大开眼界的见解。

可能会想将大部分时间花在分析数据构建复杂模型上

但首先需要学习一些更基础的东西:EDA,即探索性数据分析。

EDA 是每个公司数据科学工作的支柱。

它涉及清理、总结、转换和可视化数据。

这些任务听起来可能不像构建模型那么迷人,但它们至关重要。

事实上,对于像您这样的初学者来说,掌握 EDA 是在该领域找到第一份工作的关键一步。

虽然分析趋势和构建模型是数据科学的一部分,但它们通常由更有经验的专业人士负责。因此,专注于成为 EDA 领域的佼佼者—这是您在数据科学领域成功起步的门票!

🎯 EDA 待办事项清单 A.数据汇总 B.数据清理 C.数据转换 D.数据可视化

4. SQL(数据操作和提取)

除了Python之外,编程世界中还有另一个关键角色:SQL(结构化查询语言)。

如果您已经掌握了 SQL,您猜接着怎么着?刚解锁了工作机会的宝库!SQL 是所有行业都急需的技能。它是查询和操作数据库的首选工具。

能够读取、写入和优化 SQL 查询对于提取和调整数据至关重要。

这是一项真正提升你的数据游戏能力的技能!

🎯 SQL 待办事项清单 A. 6 大语句:(SELECT、FROM、WHERE、GROUP BY、HAVING 和 ORDER BY )连接 B.窗口函数 C.存储过程

好吧,如果您掌握了我们讨论的所有技能,那么您就有望成为一名“数据分析师”。

不过,请注意- 不要忘记学习可视化或报告生成工具,例如PowerBI或Tableau。它们至关重要!

但是,目标是成为“数据科学家”还是“数据工程师”?这是一场不同的球赛。您将需要一些额外的、更高级的技能。现在让我们深入探讨一下。

高级技能

从这里开始,学习路径变得更加困难和复杂,因为这些主题不太适合初学者。

对于这些技能,人们需要更好地理解数学主题,如线性代数微积分, 甚至一些先前的计算理论知识让我们深入了解一下。

1. 机器学习

现在您已经掌握了基础知识,您已经具备了数据抓取、清理和统计分析等技能。

您知道该怎么做:将原始数据转化为有用的东西。

下一步是什么?

使用这些数据构建模型,解锁更深入的内容并推动明智的业务选择。

这就是“机器学习”发挥作用的地方。这一切都是为了教计算机像人类一样思考和从数据中学习。

这个旅程涉及理解各种算法,从简单的线性回归到复杂的神经网络(这对你来说是深度学习)。

当然,这些概念可能看起来很难,但它们是尖端技术。

接受挑战并学习,否则就有落后的风险。这是你的选择!

🎯机器学习待办事项清单 A.特征工程 B.监督学习和无监督学习 C.回归算法(线性回归、逻辑回归等) D.分类算法(逻辑分类、SVM、朴素贝叶斯等) E.聚类算法(主要是 K 均值) F.深度学习概念(ANN、CNN、RNN、Transformers、PyTorch/张量流基础知识)

2. 模型评估

创建机器学习模型后,您很自然会想知道它们的表现如何。

这很棘手,因为这些模型内部发生的事情可能非常复杂。

这就是评估模型的重要性所在。

在数据科学中,确保模型正常工作至关重要。这意味着您绝对应该了解“模型评估方法”。

它们是理解和改进模型的关键!

您需要了解的信息是:

  1. 针对不同的情况,最好使用哪种评估方法,”
  2. 如何评估模型”
  3. 如何解读这些评价。

这些信息将指导改进模型以实现您的预期目标。

🎯模型评估待办事项清单 A. 混淆矩阵 B.精确率、召回率和 F1 分数 C.交叉验证 D.过拟合、欠拟合

现在,为那些梦想成为数据科学家的人讨论两个高级主题。

如果已经做到了这一步,那么您就快要开始作为数据科学家的旅程了。

但是等等,还有一件事。除了基础知识之外,还有一个对于数据工程师来说非常关键的高级主题。那就是:

3. 大数据技术:

让我们深入探讨数据工程师的角色。

他们的主要工作?

处理数据的“工程”方面。这涉及到从各种来源收集数据建立自动化流程等任务。

本质上,他们构建了一个数据流或管道来将所有这些数据收集到一个地方。这就是学习“大数据技术”变得至关重要的地方。

问为什么要“大数据”?

当今世界数据泛滥,而且数量巨大,这就是为什么它被称为“大数据”。

为了解决这个问题,您必须熟悉几种技术。我知道这听起来需要接受很多东西。

但这里有一个友好的建议:当您学习这些技术时,请集中精力理解它们的基本概念。

尽管技术本身总是在发展和变化,但这些基本概念保持不变。

这种方法将为您提供适应技术并与技术一起成长的坚实基础。

🎯大数据技术待办事项清单 A.大数据简介 B.分布式系统 C.Hadoop(映射缩减) D.火花 E.云计算chatgpt for learning Data Science

1. 澄清概念

“请以具有该领域[基础/中级/高级]知识的人可以理解的方式解释[主题]的概念。专注于简化复杂的方面并提供[选择:类比/示例/两者]以使其更具相关性。

附加说明:[可选:指定您是否需要该主题的简要历史、应用程序或含义]”

2. 练习题

“您能为[问题类型]任务提供[ Python代码示例/统计问题解决方案]吗?该任务应该适合具有[初级/中级/高级]技能的人。请在代码中添加注释或分步解释以阐明思考过程。

具体内容:[可选:包括具体要求,例如要使用的数据集、算法、统计方法或库]”

3. 算法说明

“请提供[算法名称]的详细解释。这应该包括[选择:其工作原理、用例、优点、局限性和/或与其他类似算法的比较]。针对具有[基础/中级/高级]算法理解的人进行解释。

视觉辅助:[可选:如果需要,请求图表或伪代码] 具体问题:[可选:包括您想要解决的算法的任何具体问题或方面]”

4. 代码调试

语言/框架:[例如Python、JavaScript、React ] 代码描述:简要描述您的代码的用途。 问题描述:清楚地描述您遇到的问题(例如,错误消息、异常输出、性能问题)。 代码片段:[在此处插入您的代码片段。确保其简洁且与问题相关。 ]

以前的尝试:[可选:提及您已采取的任何故障排除步骤。] 具体问题:[可选:询问与您的调试问题相关的具体问题。 ]

就是这样!

好了,你的自学路线图已经准备好了。但请记住,仅学习这些技能并不能立即让您找到工作。以下是您还需要做的事情:

  1. 首先,深入一些现实世界的项目。收集您的所有技能并在一个地方展示它们,例如GitHub或自己的博客或公众号。这就像为学习之旅创建一本视觉日记。
  2. 接下来,针对每项工作定制您的简历。相信我,你的努力将会得到回报。
  3. 现在,来谈谈人工智能。在当今世界,人工智能是必须的。至少掌握基本的“即时工程”技巧。这是一项可以让你脱颖而出的技能。
  4. 沟通是关键,尤其是在数据科学中。您经常需要简单地解释复杂的数据。所以,提高你的讲故事技巧——它们是黄金。
  5. 不要忘记知乎或boss直聘/脉脉。积极分享的工作。这是招聘人员注意到您的好方法,让求职更加顺利。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 万能数据的小草 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 了解基础知识
    • 1. 统计:
      • 2. 编程技巧
      • 高级技能
        • 1. 机器学习
          • 2. 模型评估
            • 3. 大数据技术:
              • 1. 澄清概念
                • 2. 练习题
                  • 3. 算法说明
                    • 4. 代码调试
                    • 就是这样!
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档