作者:CDA 数据分析师
在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。数据科学家在近年来备受追捧,也有越来越多的人想投身数据科学领域。
CDA三级数据科学家精英学习计划应时而出,上周,我们官宣了一件大事,CDA高端人才教育计划——LEVEL 3数据科学家,正式发布!
一周过去了,相信大家都会好奇,这个看起来很高大上的精英计划,究竟讲些什么内容呢?
今天带您一探究竟!
一、详细大纲
课程大纲(下滑查看具体内容)
章节
内容
学前准备
第一章
数据治理
1. 大数据治理概述、大数据建模;
· 大数据治理和建模综述
· 大数据治理中指标系统建设
2. 元数据管理、数据体系建设
· 元数据,大数据管理的起点
· 数据体系建设
3. 大数据隐私、安全、立法;
· 隐私黑洞和立法的滞后
· 欧盟通用数据保护法案
· 中国《网络安全法》新规
4. 大数据质量、热度;
· 大数据的质量模型
· 大数据的热度分析
5. 大数据生命周期模型;
· 生命周期的流转
· 业务、数据、指标的减法
· 大数据血缘关系分析
了解大数据概念与基础理论知识
第二章
大数据高级处理与架构设计
1. 大数据架构设计的方法论概述
· 围绕数据生命周期的生态
· 数据权限模型RBAC设计
· 高吞吐、高可用的架构划分
2. 互联网场景的大数据解决方案设计
· 用户行为分析架构设计
· 数据分析项目构建
· 用户画像在O2O应用
3. 大数据存储与计算的方案选型
· 业界常用的解决方案横向PK
· OLTP和OLAP的融合设计
· 实时流和离线流的架构设计
4. 大数据指标系统与数据安全
· 数据的安全体系介绍
· 数据脱敏动态和离线
· 数据使用审计和追溯
5. 集群资源管理、调优
· 集群Yarn管理简介
· Impala调优
· Spark性能调优
熟悉LEVEL 2 Hadoop、Spark 生态
第三章
计算机科学技术
1. 衡量性能的方法
2. 多线程编程
3. 提高性能性能的各种编程方法
4. 机器学习框架Tensorflow的原理
5. Keras、Scikit-Learn、TFLearn等算法库的使用
6. 实作基于Tensorflow、Keras、Scikit-Learn、TFLearn的机器学习算法
具备Python编程基础
第四章
机器学习
1. 特征选择与稀疏学习
2. 类别不平衡问题
3. 决策规则
4. 半监督学习
5. 强化学习
6. 文本挖掘
7. 社会网络分析
8. 区块链分析
具备L2建模分析技能
第五章
深度学习
1. 感知机与神经网络
2. 深度学习基础概念
3. 深度学习模型训练与优化
4. 社会网络分析
5. 深度学习神经网络-DNN/CNN/RNN/LSTM神经网络
6. 生成式对抗网络
7. 深度学习在物体检测与定位上的应用
8. 深度学习在人脸识别上的应用
9. 深度学习在语音识别上的应用
深度学习的未来发展趋势
掌握第四章内容
第六章
项目管理
1. 软件项目管理基础
2. 敏捷开发
3. 代码管理
4. 构建大数据团队
· 行业间数据团队建设的差异
· 大数据团队建设面临的挑战
· 建立卓越数据团队的要素
· 最佳实践案例: LinkedIn如何建立高效的· 数据科学团队
5. 项目管理相关知识及常用工具
· 六西格玛(6Sigma)与项目管理办公室(PMO)
· CMMI软件能力成熟度模型
· 变更控制会:CCB
· 头脑风暴、思维导图
· 工作分解结构:WBS
· 挣值管理:EVM
· 控制图、因果图、直方图、拍累托图、责任分配矩阵图:RAM
· 冲突管理方法、问题日志、SWOT分析
· 风险应对策略
6. 常用项目管理工具介绍
· 项目计划设计工具:MS Project
· 敏捷项目管理:JIRA
· 缺陷管理工具:Mantis
无
第七章
项目流程与毕业设计指导
1. 项目背景介绍,项目目标与预期
2. 项目架构分析, 算法部分在整个项目中的位置与重要度
3. 项目数据分析与指标指定,项目打造一个仪表盘,作为优化的依据标准
4. 数据特征分析与存储应用, 商品,用户,仓库,库存,促销,广告,天气…..等特征
5. 确定问题之后,来考察可是使用哪些算法来开展工作,从易到难,从简到繁
· 简单统计模型: 七日平均、七日中位数
· 统计时序模型: 指数平滑、Holt-winter、ARIMA
深度时序模型: LSTM
· 机器学习模型: XGBoost、集成模型
6. 算法结果的工程应用:在成功工程中,算法结果(数字)是砖,把砖构建成什么样的雄伟的建筑,
· 还需要一整套框架与计划,这是算法项目后期最重要的一个环节,做的不好的话,即时是算法
· 结果没问题也会导致频发。
7. 线上AB与结果检验
8. 毕业设计指导
掌握前面所学内容
二、项目实战案例
案例1:大数据指标模型治理与实践
【案例介绍】
大数据对业务数据ETL处理后,面临在数据仓库层面对业务词库定义、指标建模、元数据统一等问题;后期对外数据通过产品化和AdHoc方式交付数据,存在指标定义相同,但是语义理解存在较大偏差,如何进行指标模型的多口径计算逻辑统一,避免繁琐的人工维护和迭代,是本议题主张的部分;通过一处定义数据指标,多处交付统一的模型抽象、定义、训练和交付整体实践。
【技能涉及】
元数据、大数据计算、ETL、数据建模、计算口径、血缘关系、语义理解、统一模型。
案例2:用户画像在O2O互联网场景的实践
【案例介绍】
在外卖的物流场景下的调度是一个时空最优解的模型评估,模型的演进的过程中,都有重要的特征支持着变革,边界非常清晰。模型演进对于画像部分,是开始在配送服务精细化运营的落地步骤;画像是为了满足个体的真实差异而对个性化的支撑方式。分享围绕互联网企业在智能调度系统方向上从的逐步演进,画像贯穿在整个生态当中,在大刀阔斧的业务版本演进同时,能够细致入微的解决落地场景的实践。
【技能涉及】
用户画像、特征挖掘、模型评估、个性化推荐、时空最优
案例3:文本挖掘实战
【案例介绍】
文本分析(Text analysis)是文本挖掘、信息检索的一个基本问题。它将文本中抽取出的特征词进行量化,进而表示其文本信息。由于文本是由特定的人进行编撰的,文本的语义结构不可避免地会反映人的特定立场、观点、价值和利益。通过大量数据的支撑,并结合文本内容的分析,可以推断出文本编撰者的意图和目的,以进行各种不同场景应用。
【技能涉及】
分词、词性标注、命名实体标订、情绪标订、词关联分析、文件分类、文件摘要、文件聚类、文字云
案例4:社会网络分析实战
【案例介绍】
社会网络是许多节点以及节点间关系构成的一个网络结构。社会网络的核心概念是人与人之间的关系,通过这些关系定义了我们是谁,以及如何行事。我们的人格、教育、背景、种族、民族等所有的一切都会与我们的关系模式产生互动,进而在关系中留下不可磨灭的印记。社会网络分析(Social Network Analysis)则是通过对社会网络进行观察和研究,回答许多社会的问题。具体来说,是用来查看节点、链接之间的社会关系的分析方式。
【技能涉及】
网络分析(节点进出程度、网络的密度)、Page Rank、扩散分析、群组分析、群组聚类、网络社区结构
案例5:深度学习在手写数字识别上的应用
【案例介绍】
对于开始接触 TensorFlow 、 Keras 等深度学习框架的人而言,“MNIST 手写数字辨识”是非常适合入门的练习项目,其角色就好比刚学习程式语言时所印出的 " Hello world ! " 一样。而 MNIST 手写数字辨识,顾名思义,便是让机器辨识出手写数字影像是 0 到 9 之间的哪一个数字。MNIST 资料集是由 Yann LeCun 等人提供在 THE MNIST DATABASE 上面的手写数字资料,这些资料包含图片与标签两种形式的内容。其中, training data(共 55000 笔)与 validation data(共 5000 笔)皆具有图片及标签,而 test data(共 10000 笔)则是只有图片,而没有标签。每一笔资料的照片是由 28 pixels x 28 pixels ,总共 784 个 pixels 所组成,图片显示的是 0 到 9 之中的一个阿拉伯数字;资料的标签则表示该手写数字图片所呈现的数字为何,也就是 0 到 9 中一个数值。
【技能涉及】
Keras、TensorFlow、MLP(多层感知器)、DNN(普通深度网络)模型、CNN(卷积神经网络)模型
案例6:深度学习在影像物体识别上的应用
【案例介绍】
Cifar-10是由深度学习大师 Geoffrey Hinton 教授与其在加拿大多伦多大学的学生 Alex Krixhevsky 与 Vinoid Nair 所整理之影像数据集, 包含 6 万笔 32*32 低分辨率之彩色图片, 其中 5 万笔为训练集; 1 万笔为测试集, 是机器学习中常用的图片辨识数据集。Cifar-10 的所有图片被分为 10 个类别(飞机、汽车、鸟、猫、鹿、狗、青蛙、船、卡车)。
【技能涉及】
Keras、TensorFlow、MLP(多层感知器)、DNN(普通深度网络)模型、CNN(卷积神经网络)模型
案例7:生鲜智能补货
【案例介绍】
生鲜补货在特定行业模式下的特点与面临的问题,商业模式与智能补货相结合中用到的智能算法,相关架构与业务效果,以及在系统的整个构建过程,生鲜智能补货是一个跟、供应链、仓储、物流、人员配送、促销、商品展现、推荐、广告、渠道运营等多系统协同的复杂系统,尤其生鲜类商品,保质期短,口味、消费者人群、地域分布等都与传统电商商品具有很大的差异。目前生鲜电商面临的最大问题就是运营成本难以下降,传统电商运营生鲜面临着保质期太短,对新鲜度的极高要求,冷链问题解,配送耗材损耗居高不下等问题。面对这样的问题,可以从供给侧通过智能补货系统对商品进行预测控制,降低损耗,降低周转期,提高库容利用率。
【技能涉及】
商业模式、系统架构、特征分析、数据指标、算法应用、时序分析