雨哥开班啦—实战大数据

最近有朋友问我,微信公众号的更新频次明显放缓,是不是挖完坑之后不想填坑?

大数据“这个坑”是个人爱好,以前看某书说,工作的几个层次,第一层是谋生、第二层是爱好、第三层是事业,目前我在第二层。

为啥还没到第三层呢?因为这些年我没看到过真正赚钱的大数据公司!

无论是自身拥有海量数据的BATJ还是三大运营商,目前在大数据领域的探索还都很艰难,那其它没有核心数据积累,靠爬虫来挖掘公共数据之中的公司活的会更艰辛。早上看了一张爬虫的图表,详见附图,各位看官应该有所感悟,可以留言区讨论。

聊一下今天的正题,最近打算开个大数据班,传道受业解惑课程主要集中在数据科学、机器学习、语义计算和知识图谱。

列了如下的提纲,各位多提宝贵意见。

数据科学入门(初级班)

数据分析思维:什么是数据挖掘?

商务问题和数据科学解决方案:

从商务问题到数据挖掘任务

有监督方法和无监督方法

数据挖掘和结果

数据挖掘过程

其它分析技术

预测模型简介

模型、归纳和预测

分类算法:决策树、最近邻方法、支持向量机、logistic regression分类器、随机森林等.

模型评估、如何避免过拟合

应用例子:客户流失预测.

无监督方法

相似性和距离

聚类算法:层次型聚类、k-均值等

应用:商业新闻聚类、客户划分等.

聚类结果的评估、理解

数据表示和特征工程

文本挖掘:

文本表示:词袋模型、TF*IDF, N-gram,词向量等.

主题模型

文本分类

情感/观点分析

应用:基于新闻预测股价变动、产品/电影评论分析等.

降维与可视化技术

选讲:关联分析、推荐系统、社交网络分析、深度学习简介等.

开源工具:scikit learn

《机器学习和数据挖掘》

高级班内容(选讲)

基础知识回顾:线性代数基础知识、概率论基础知识

机器学习导论

监督学习算法:k近邻分类器,朴素贝叶斯分类器,决策树

点估计和最大似然估计、高斯分布

线性回归,bias-variance tradeoff.

过拟合、正则化、岭回归、交叉验证

网格搜索(Grid search)、评估度量

变量选择,稀疏性,LASSO(Variable selection, sparsity, LASSO)

Logistic回归,凸优化,梯度下降法

在线学习算法:感知器算法,随机梯度下降法

支持向量机,核函数

随机森林,GBDT, XGboost等.

数据表示和特征工程

降维、特征抽取和流形学习:奇异值分解(SVD),主成份分析(PCA),非负矩阵分解(NMF), t-SNE

聚类算法:k-means聚类,层次型聚类,DBSCAN,谱聚类聚类结果评估、分析

高斯混合模型和EM算法,混合多项模型

文本表示和挖掘:词袋(bag-of-words), TF-IDF, N-gram.

应用1:电影评论的情感分析

应用2:挖掘新闻来预测股价浮动

主题模型:概率潜在语义分析, Latent Direchlet Allocation.序列数据分析:隐马尔可夫链,条件随机场,应用(中文分词、命名实体识别NER等)

深度学习,神经网络,后向传播(Deep Learning, Neural Nets, and Back-propagation)

卷积神经网络

循环神经网络

词向量模型及应用(Word embedding)

机器学习应用:推荐系统(协同过滤、隐矩阵分解、贝叶斯个性化排序等)。

A/B test, bandit算法应用(UCB, Thompson sampling算法),应用:广告、服务、动态定价等.

相似性搜索:min-hash,局部敏感哈希(LSH)

关联分析

数据流:count-min sketch, count sketch等(应用:访问量统计)

社会网络分析

机器学习实践

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180814B0AAAF00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券