最近有朋友问我,微信公众号的更新频次明显放缓,是不是挖完坑之后不想填坑?
大数据“这个坑”是个人爱好,以前看某书说,工作的几个层次,第一层是谋生、第二层是爱好、第三层是事业,目前我在第二层。
为啥还没到第三层呢?因为这些年我没看到过真正赚钱的大数据公司!
无论是自身拥有海量数据的BATJ还是三大运营商,目前在大数据领域的探索还都很艰难,那其它没有核心数据积累,靠爬虫来挖掘公共数据之中的公司活的会更艰辛。早上看了一张爬虫的图表,详见附图,各位看官应该有所感悟,可以留言区讨论。
聊一下今天的正题,最近打算开个大数据班,传道受业解惑课程主要集中在数据科学、机器学习、语义计算和知识图谱。
列了如下的提纲,各位多提宝贵意见。
数据科学入门(初级班)
数据分析思维:什么是数据挖掘?
商务问题和数据科学解决方案:
从商务问题到数据挖掘任务
有监督方法和无监督方法
数据挖掘和结果
数据挖掘过程
其它分析技术
预测模型简介
模型、归纳和预测
分类算法:决策树、最近邻方法、支持向量机、logistic regression分类器、随机森林等.
模型评估、如何避免过拟合
应用例子:客户流失预测.
无监督方法
相似性和距离
聚类算法:层次型聚类、k-均值等
应用:商业新闻聚类、客户划分等.
聚类结果的评估、理解
数据表示和特征工程
文本挖掘:
文本表示:词袋模型、TF*IDF, N-gram,词向量等.
主题模型
文本分类
情感/观点分析
应用:基于新闻预测股价变动、产品/电影评论分析等.
降维与可视化技术
选讲:关联分析、推荐系统、社交网络分析、深度学习简介等.
开源工具:scikit learn
《机器学习和数据挖掘》
高级班内容(选讲)
基础知识回顾:线性代数基础知识、概率论基础知识
机器学习导论
监督学习算法:k近邻分类器,朴素贝叶斯分类器,决策树
点估计和最大似然估计、高斯分布
线性回归,bias-variance tradeoff.
过拟合、正则化、岭回归、交叉验证
网格搜索(Grid search)、评估度量
变量选择,稀疏性,LASSO(Variable selection, sparsity, LASSO)
Logistic回归,凸优化,梯度下降法
在线学习算法:感知器算法,随机梯度下降法
支持向量机,核函数
随机森林,GBDT, XGboost等.
数据表示和特征工程
降维、特征抽取和流形学习:奇异值分解(SVD),主成份分析(PCA),非负矩阵分解(NMF), t-SNE
聚类算法:k-means聚类,层次型聚类,DBSCAN,谱聚类聚类结果评估、分析
高斯混合模型和EM算法,混合多项模型
文本表示和挖掘:词袋(bag-of-words), TF-IDF, N-gram.
应用1:电影评论的情感分析
应用2:挖掘新闻来预测股价浮动
主题模型:概率潜在语义分析, Latent Direchlet Allocation.序列数据分析:隐马尔可夫链,条件随机场,应用(中文分词、命名实体识别NER等)
深度学习,神经网络,后向传播(Deep Learning, Neural Nets, and Back-propagation)
卷积神经网络
循环神经网络
词向量模型及应用(Word embedding)
机器学习应用:推荐系统(协同过滤、隐矩阵分解、贝叶斯个性化排序等)。
A/B test, bandit算法应用(UCB, Thompson sampling算法),应用:广告、服务、动态定价等.
相似性搜索:min-hash,局部敏感哈希(LSH)
关联分析
数据流:count-min sketch, count sketch等(应用:访问量统计)
社会网络分析
机器学习实践