Python数据科学|第一章:数据科学家的武器库

本系列教程为《Python数据科学——技术详解与商业实践》的读书笔记。该书以Python为实现工具,以商业实战为导向,从技术、业务、商业实战3个维度来展开学习。本书共19章(Python环境安装和Python基础语法法本系列教程不做讲解),内容较多,旨在学习和记录。但惶恐自身能力有限,未及原书三分,故征得原书作者同意,才敢动笔。

1.1 数据科学的基本概念

数据科学并不是一门学科,它是为了完成商业或工业上的目标,从数据获取知识,为行动提出建议的方法、技术和流程的最佳实践。 本书提供了数据科学工作者的工作范式图,这里将这个工作范式图简单进行描述:数据通过维度分析转换为信息;信息通过建模分析得到知识;知识结合业务目标以此进行决策和行动。 与数据科学相关的知识设计多个学科和领域,包括统计学、数据挖掘、模式识别、机器学习(人工智能)、数据库等。

1.2 数理统计技术

1.2.1 描述性统计分析

新闻报道中的居民收入情况,并不需要把每个人的收入都念一遍,而是取的均值。描述性统计分析就是从总体数据中提取变量的统计量。在日常的业务分析报告中,常使用该方法完成。在实际中,也就是通过Python进行数据统计,完成统计表和统计图的呈现即可。

1.2.2 统计推断与统计建模

统计推断及统计建模,含义是建议解释变量与被解释变量之间可解释的、稳定的,最好是具有因果关系的表达式(下文会详细介绍)。

1.3 数据挖掘技术和方法

数据挖掘的方法分为描述性和预测性。预测性模型从历史数据中找到规律,并用于预测未来;描述性模型用于直观反映历史状况,为后续的分析提供灵感。 例如:判断客户是否违约,可通过客户的性别、年龄、收入、历史信用状况等因素进行预测。这里就是预测性模型。 通过客户标签对用户细分,以便针对不同客户做不同运营;根据客户的产品购买,发现产品间的相关性,用于捆绑营销。这些就是属于描述性模型。

1.3.1 描述性数据挖掘算法
  • 聚类分析
  • 关联规则分析
1.3.2 预测性数据挖掘算法
  • 决策树
  • KNN算法
  • Logistic回归
  • 神经网络
  • 支持向量机
  • 集成算法 具体的算法在后文中一一讲解。

总结

第一章主要是起到总的作用,首先介绍了数据科学的概念和流程。接下来针对问题的难易,将数据科学需要用到的技术划分为:数理统计技术和数据挖掘技术。这些技术也就是数据科学家的武器库。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

如何成为一名自然语言处理工程师

22730
来自专栏数据科学与人工智能

【知识】统计学和数据挖掘的区别

小编邀请您,先思考: 1 统计学是什么?为什么用统计学? 2 数据挖掘是什么?为什么用数据挖掘? ? 1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结...

40370
来自专栏AI研习社

AI 挑战赛 | 基于一分钟渐进情绪行为数据集(OMG-Emotion)的情绪识别挑战赛

大部分的情感系统基于 Paul Ekman 的分类方案,即六种普遍情感:厌恶、恐惧、幸福、惊奇、悲伤和愤怒。虽然 Ekman 在他的研究中表明,这些情绪是通过人...

524120
来自专栏人工智能快报

Google正在研发新型人工智能算法

据英国《卫报》报道,美国Google公司的杰夫•辛顿教授宣称,谷歌正在开发一种新型人工智能算法,该算法具有逻辑、自然对话甚至调情的能力。 辛顿教授表示谷歌正在研...

38080
来自专栏机器之心

业界 | 机器阅读理解打破人类记录,解读阿里iDST SLQA技术

364100
来自专栏程序员互动联盟

为什么只有少数人能学会算法?

现在很多人学习编程学的还是很开心,随着学习的深入慢慢的开始怀疑人生,怀疑自己是不是真的适合学习编程,总之一系列的不合适纷纷的涌入自己的大脑,作为一个程序员如何正...

35060
来自专栏PPV课数据科学社区

机器学习&人工智能:数据赋能背后的黑科技

? 背景 马老师曾提到三次技术革命:“第一次技术革命是体能的释放,是让人的力量更大,第二次技术革命是对能源的利用,使得人可以走得更遥远,而这一次技术革命是IT...

40860
来自专栏CDA数据分析师

基础知识:统计学和数据挖掘的区别

1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际...

29150
来自专栏数据科学与人工智能

【统计学习】为什么同一问题统计专家、机器学习专家解决方法差别那么大?

乍一看,机器学习和统计似乎是非常相似的,大家几乎不强调这两个学科之间的差异。机器学习和统计有着相同的目标 ——它们都关注数据建模,但他们的使用方法却因为它们文化...

29860
来自专栏AI科技评论

国内首届中文人机对话技术评测赛果出炉,两项任务冠军团队都分享了哪些技术细节?|SMP 2017

AI科技评论按:近年来,人机对话技术受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成、自然语言理解、...

761100

扫码关注云+社区

领取腾讯云代金券