文章/答案/技术大牛

发布

雨哥开班啦—实战大数据

文章来源：企鹅号 - 拥抱BIGDATA

最近有朋友问我，微信公众号的更新频次明显放缓，是不是挖完坑之后不想填坑？

大数据“这个坑”是个人爱好，以前看某书说，工作的几个层次，第一层是谋生、第二层是爱好、第三层是事业，目前我在第二层。

为啥还没到第三层呢？因为这些年我没看到过真正赚钱的大数据公司！

无论是自身拥有海量数据的BATJ还是三大运营商，目前在大数据领域的探索还都很艰难，那其它没有核心数据积累，靠爬虫来挖掘公共数据之中的公司活的会更艰辛。早上看了一张爬虫的图表，详见附图，各位看官应该有所感悟，可以留言区讨论。

聊一下今天的正题，最近打算开个大数据班，传道受业解惑课程主要集中在数据科学、机器学习、语义计算和知识图谱。

列了如下的提纲，各位多提宝贵意见。

数据科学入门（初级班）

数据分析思维：什么是数据挖掘？

商务问题和数据科学解决方案：

从商务问题到数据挖掘任务

有监督方法和无监督方法

数据挖掘和结果

数据挖掘过程

其它分析技术

预测模型简介

模型、归纳和预测

分类算法：决策树、最近邻方法、支持向量机、logistic regression分类器、随机森林等.

模型评估、如何避免过拟合

应用例子：客户流失预测.

无监督方法

相似性和距离

聚类算法：层次型聚类、k-均值等

应用：商业新闻聚类、客户划分等.

聚类结果的评估、理解

数据表示和特征工程

文本挖掘：

文本表示：词袋模型、TF*IDF, N-gram,词向量等.

主题模型

文本分类

情感/观点分析

应用：基于新闻预测股价变动、产品/电影评论分析等.

降维与可视化技术

选讲：关联分析、推荐系统、社交网络分析、深度学习简介等.

开源工具：scikit learn

《机器学习和数据挖掘》

高级班内容(选讲)

基础知识回顾：线性代数基础知识、概率论基础知识

机器学习导论

监督学习算法：k近邻分类器，朴素贝叶斯分类器，决策树

点估计和最大似然估计、高斯分布

线性回归，bias-variance tradeoff.

过拟合、正则化、岭回归、交叉验证

网格搜索(Grid search)、评估度量

变量选择，稀疏性，LASSO(Variable selection, sparsity, LASSO)

Logistic回归，凸优化，梯度下降法

在线学习算法：感知器算法，随机梯度下降法

支持向量机，核函数

随机森林，GBDT, XGboost等.

数据表示和特征工程

降维、特征抽取和流形学习:奇异值分解(SVD),主成份分析(PCA),非负矩阵分解(NMF), t-SNE

聚类算法：k-means聚类，层次型聚类，DBSCAN，谱聚类聚类结果评估、分析

高斯混合模型和EM算法，混合多项模型

文本表示和挖掘：词袋(bag-of-words), TF-IDF, N-gram.

应用1：电影评论的情感分析

应用2：挖掘新闻来预测股价浮动

主题模型:概率潜在语义分析, Latent Direchlet Allocation.序列数据分析：隐马尔可夫链，条件随机场，应用(中文分词、命名实体识别NER等)

深度学习，神经网络，后向传播(Deep Learning, Neural Nets, and Back-propagation)

卷积神经网络

循环神经网络

词向量模型及应用(Word embedding)

机器学习应用：推荐系统(协同过滤、隐矩阵分解、贝叶斯个性化排序等)。

A/B test, bandit算法应用(UCB, Thompson sampling算法),应用：广告、服务、动态定价等.

相似性搜索：min-hash,局部敏感哈希(LSH)

关联分析

数据流：count-min sketch, count sketch等(应用：访问量统计)

社会网络分析

机器学习实践

发表于: 2018-08-142018-08-14 08:30:28
原文链接：https://kuaibao.qq.com/s/20180814B0AAAF00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

雨哥开班啦—实战大数据

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐