CDA三级数据科学家精英计划究竟讲些什么内容?

作者:CDA 数据分析师

在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。数据科学家在近年来备受追捧,也有越来越多的人想投身数据科学领域。

CDA三级数据科学家精英学习计划应时而出,上周,我们官宣了一件大事,CDA高端人才教育计划——LEVEL 3数据科学家,正式发布!

一周过去了,相信大家都会好奇,这个看起来很高大上的精英计划,究竟讲些什么内容呢?

今天带您一探究竟!

一、详细大纲

课程大纲(下滑查看具体内容)

章节

内容

学前准备

第一章

数据治理

1. 大数据治理概述、大数据建模;

· 大数据治理和建模综述

· 大数据治理中指标系统建设

2. 元数据管理、数据体系建设

· 元数据,大数据管理的起点

· 数据体系建设

3. 大数据隐私、安全、立法;

· 隐私黑洞和立法的滞后

· 欧盟通用数据保护法案

· 中国《网络安全法》新规

4. 大数据质量、热度;

· 大数据的质量模型

· 大数据的热度分析

5. 大数据生命周期模型;

· 生命周期的流转

· 业务、数据、指标的减法

· 大数据血缘关系分析

了解大数据概念与基础理论知识

第二章

大数据高级处理与架构设计

1. 大数据架构设计的方法论概述

· 围绕数据生命周期的生态

· 数据权限模型RBAC设计

· 高吞吐、高可用的架构划分

2. 互联网场景的大数据解决方案设计

· 用户行为分析架构设计

· 数据分析项目构建

· 用户画像在O2O应用

3. 大数据存储与计算的方案选型

· 业界常用的解决方案横向PK

· OLTP和OLAP的融合设计

· 实时流和离线流的架构设计

4. 大数据指标系统与数据安全

· 数据的安全体系介绍

· 数据脱敏动态和离线

· 数据使用审计和追溯

5. 集群资源管理、调优

· 集群Yarn管理简介

· Impala调优

· Spark性能调优

熟悉LEVEL 2 Hadoop、Spark 生态

第三章

计算机科学技术

1. 衡量性能的方法

2. 多线程编程

3. 提高性能性能的各种编程方法

4. 机器学习框架Tensorflow的原理

5. Keras、Scikit-Learn、TFLearn等算法库的使用

6. 实作基于Tensorflow、Keras、Scikit-Learn、TFLearn的机器学习算法

具备Python编程基础

第四章

机器学习

1. 特征选择与稀疏学习

2. 类别不平衡问题

3. 决策规则

4. 半监督学习

5. 强化学习

6. 文本挖掘

7. 社会网络分析

8. 区块链分析

具备L2建模分析技能

第五章

深度学习

1. 感知机与神经网络

2. 深度学习基础概念

3. 深度学习模型训练与优化

4. 社会网络分析

5. 深度学习神经网络-DNN/CNN/RNN/LSTM神经网络

6. 生成式对抗网络

7. 深度学习在物体检测与定位上的应用

8. 深度学习在人脸识别上的应用

9. 深度学习在语音识别上的应用

深度学习的未来发展趋势

掌握第四章内容

第六章

项目管理

1. 软件项目管理基础

2. 敏捷开发

3. 代码管理

4. 构建大数据团队

· 行业间数据团队建设的差异

· 大数据团队建设面临的挑战

· 建立卓越数据团队的要素

· 最佳实践案例: LinkedIn如何建立高效的· 数据科学团队

5. 项目管理相关知识及常用工具

· 六西格玛(6Sigma)与项目管理办公室(PMO)

· CMMI软件能力成熟度模型

· 变更控制会:CCB

· 头脑风暴、思维导图

· 工作分解结构:WBS

· 挣值管理:EVM

· 控制图、因果图、直方图、拍累托图、责任分配矩阵图:RAM

· 冲突管理方法、问题日志、SWOT分析

· 风险应对策略

6. 常用项目管理工具介绍

· 项目计划设计工具:MS Project

· 敏捷项目管理:JIRA

· 缺陷管理工具:Mantis

第七章

项目流程与毕业设计指导

1. 项目背景介绍,项目目标与预期

2. 项目架构分析, 算法部分在整个项目中的位置与重要度

3. 项目数据分析与指标指定,项目打造一个仪表盘,作为优化的依据标准

4. 数据特征分析与存储应用, 商品,用户,仓库,库存,促销,广告,天气…..等特征

5. 确定问题之后,来考察可是使用哪些算法来开展工作,从易到难,从简到繁

· 简单统计模型: 七日平均、七日中位数

· 统计时序模型: 指数平滑、Holt-winter、ARIMA

深度时序模型: LSTM

· 机器学习模型: XGBoost、集成模型

6. 算法结果的工程应用:在成功工程中,算法结果(数字)是砖,把砖构建成什么样的雄伟的建筑,

· 还需要一整套框架与计划,这是算法项目后期最重要的一个环节,做的不好的话,即时是算法

· 结果没问题也会导致频发。

7. 线上AB与结果检验

8. 毕业设计指导

掌握前面所学内容

二、项目实战案例

案例1:大数据指标模型治理与实践

【案例介绍】

大数据对业务数据ETL处理后,面临在数据仓库层面对业务词库定义、指标建模、元数据统一等问题;后期对外数据通过产品化和AdHoc方式交付数据,存在指标定义相同,但是语义理解存在较大偏差,如何进行指标模型的多口径计算逻辑统一,避免繁琐的人工维护和迭代,是本议题主张的部分;通过一处定义数据指标,多处交付统一的模型抽象、定义、训练和交付整体实践。

【技能涉及】

元数据、大数据计算、ETL、数据建模、计算口径、血缘关系、语义理解、统一模型。

案例2:用户画像在O2O互联网场景的实践

【案例介绍】

在外卖的物流场景下的调度是一个时空最优解的模型评估,模型的演进的过程中,都有重要的特征支持着变革,边界非常清晰。模型演进对于画像部分,是开始在配送服务精细化运营的落地步骤;画像是为了满足个体的真实差异而对个性化的支撑方式。分享围绕互联网企业在智能调度系统方向上从的逐步演进,画像贯穿在整个生态当中,在大刀阔斧的业务版本演进同时,能够细致入微的解决落地场景的实践。

【技能涉及】

用户画像、特征挖掘、模型评估、个性化推荐、时空最优

案例3:文本挖掘实战

【案例介绍】

文本分析(Text analysis)是文本挖掘、信息检索的一个基本问题。它将文本中抽取出的特征词进行量化,进而表示其文本信息。由于文本是由特定的人进行编撰的,文本的语义结构不可避免地会反映人的特定立场、观点、价值和利益。通过大量数据的支撑,并结合文本内容的分析,可以推断出文本编撰者的意图和目的,以进行各种不同场景应用。

【技能涉及】

分词、词性标注、命名实体标订、情绪标订、词关联分析、文件分类、文件摘要、文件聚类、文字云

案例4:社会网络分析实战

【案例介绍】

社会网络是许多节点以及节点间关系构成的一个网络结构。社会网络的核心概念是人与人之间的关系,通过这些关系定义了我们是谁,以及如何行事。我们的人格、教育、背景、种族、民族等所有的一切都会与我们的关系模式产生互动,进而在关系中留下不可磨灭的印记。社会网络分析(Social Network Analysis)则是通过对社会网络进行观察和研究,回答许多社会的问题。具体来说,是用来查看节点、链接之间的社会关系的分析方式。

【技能涉及】

网络分析(节点进出程度、网络的密度)、Page Rank、扩散分析、群组分析、群组聚类、网络社区结构

案例5:深度学习在手写数字识别上的应用

【案例介绍】

对于开始接触 TensorFlow 、 Keras 等深度学习框架的人而言,“MNIST 手写数字辨识”是非常适合入门的练习项目,其角色就好比刚学习程式语言时所印出的 " Hello world ! " 一样。而 MNIST 手写数字辨识,顾名思义,便是让机器辨识出手写数字影像是 0 到 9 之间的哪一个数字。MNIST 资料集是由 Yann LeCun 等人提供在 THE MNIST DATABASE 上面的手写数字资料,这些资料包含图片与标签两种形式的内容。其中, training data(共 55000 笔)与 validation data(共 5000 笔)皆具有图片及标签,而 test data(共 10000 笔)则是只有图片,而没有标签。每一笔资料的照片是由 28 pixels x 28 pixels ,总共 784 个 pixels 所组成,图片显示的是 0 到 9 之中的一个阿拉伯数字;资料的标签则表示该手写数字图片所呈现的数字为何,也就是 0 到 9 中一个数值。

【技能涉及】

Keras、TensorFlow、MLP(多层感知器)、DNN(普通深度网络)模型、CNN(卷积神经网络)模型

案例6:深度学习在影像物体识别上的应用

【案例介绍】

Cifar-10是由深度学习大师 Geoffrey Hinton 教授与其在加拿大多伦多大学的学生 Alex Krixhevsky 与 Vinoid Nair 所整理之影像数据集, 包含 6 万笔 32*32 低分辨率之彩色图片, 其中 5 万笔为训练集; 1 万笔为测试集, 是机器学习中常用的图片辨识数据集。Cifar-10 的所有图片被分为 10 个类别(飞机、汽车、鸟、猫、鹿、狗、青蛙、船、卡车)。

【技能涉及】

Keras、TensorFlow、MLP(多层感知器)、DNN(普通深度网络)模型、CNN(卷积神经网络)模型

案例7:生鲜智能补货

【案例介绍】

生鲜补货在特定行业模式下的特点与面临的问题,商业模式与智能补货相结合中用到的智能算法,相关架构与业务效果,以及在系统的整个构建过程,生鲜智能补货是一个跟、供应链、仓储、物流、人员配送、促销、商品展现、推荐、广告、渠道运营等多系统协同的复杂系统,尤其生鲜类商品,保质期短,口味、消费者人群、地域分布等都与传统电商商品具有很大的差异。目前生鲜电商面临的最大问题就是运营成本难以下降,传统电商运营生鲜面临着保质期太短,对新鲜度的极高要求,冷链问题解,配送耗材损耗居高不下等问题。面对这样的问题,可以从供给侧通过智能补货系统对商品进行预测控制,降低损耗,降低周转期,提高库容利用率。

【技能涉及】

商业模式、系统架构、特征分析、数据指标、算法应用、时序分析

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2018-11-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

业界 | Cell最新:荧光标记out了,谷歌靠算法不用“侵入”也能识别细胞特征

18880
来自专栏计算机视觉战队

人工智能在《LOL&王者荣耀》游戏中的角色

近期LOL和王者荣耀游戏已经充斥着真个朋友圈,但是谁又知道在火热的游戏进行中,又有一批批IT男在完成另一项重要的任务,那就是利用深度学习的知识去完成游戏直播的智...

30960
来自专栏AI科技大本营的专栏

DeepMind 研发出类脑 AI 神经元,具备超强空间导航能力

Google 旗下人工智能公司 DeepMind 的研究人员最近在《自然》杂志上发表论文,宣布同伦敦大学学院的神经生理学家合作,研发出了能够模拟哺乳动物大脑中网...

12410
来自专栏数据派THU

【独家】微软郑宇:大数据驱动智能城市讲座精华(附PPT)

[导读]本文整理自微软亚洲研究院“城市计算”领域负责人郑宇博士近期在清华大数据讲座上的分享内容。郑宇主持研发的Urban Air首次利用大数据来监测和预报细粒度...

36480
来自专栏算法+

音频识别算法思考与阶段性小结

主要是 回复 给我发邮件以及QQ上询问的朋友们的一些疑问和需求,这里稍作回复一下。

46910
来自专栏计算机视觉战队

人工智能在《LOL&王者荣耀》游戏中的角色

近期LOL和王者荣耀游戏已经充斥着真个朋友圈,但是谁又知道在火热的游戏进行中,又有一批批IT男在完成另一项重要的任务,那就是利用深度学习的知识去完成游戏直播的智...

19660
来自专栏量子位

谷歌AI“你画我猜”强推“狗年版本”,腾讯AI要帮你修老照片 | 竹货新春

? 今天大年初一。为了庆贺中国农历狗年的到来,谷歌刚刚在自己的AI“你画我猜”游戏中更新了狗狗版本。 (你画我猜,介系里没有挽过的船新版本。挤需体验三番钟,...

42790
来自专栏ATYUN订阅号

AI帮助保护濒危的印第安语言——塞内卡

全世界有近7000种语言,其中约一半被认为是濒危语言。 这意味着他们中的许多人不在学校教授,语言不在商业或政府中使用,并且经常与计算机键盘不兼容。

13640
来自专栏大数据挖掘DT机器学习

教你如何用机器学习预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将...

37560
来自专栏人工智能头条

贾扬清:希望Caffe成为深度学习领域的Hadoop

38540

扫码关注云+社区

领取腾讯云代金券