数据分析(工程)师/数据科学家能力测评表
模块 | 知识点 | 问题示例 |
---|---|---|
概率和统计 | 线性回归和正则化 | 写出不同正则化的线性回归损失函数,R2, 参数估计 |
概率分布 | 写出高斯分布的概率密度函数 | |
统计检验 | t检验,什么是P_value,卡方检验 | |
采样 | Gibbs采样,MCMC | |
分层采样,分组采样 | ||
贝叶斯公式 | 写出贝叶斯公式。两个盒子分别有r1, r2个红球, b1,b2个蓝色球,现在小明抽到一个红球,问这个红球来自第一个盒子的概率是多少? | |
参数估计 | 矩估计,最大似然估计的理论基础,区间估计中随机区间及相应概率的理解。 | |
数据清洗与可视化 | 缺失值处理 | 列举缺失值处理的常用方法,写出对应的代码 |
异常值检测 | 列举异常值检测的方法 | |
特征离散化 | 特征离散化的常用方法 | |
数据可视化 | 变量相关性,散点图,箱线图,直方图(代码) | |
机器学习 | 朴素贝叶斯 | 写出贝叶斯公式,推导朴素贝叶斯进行文本分类的算法 |
逻辑回归 | 写出预测函数,logistic函数的求导,写出参数学习的迭代公式 | |
SVM | 原问题和对偶问题,样本量大的时候如何选取,核函数有哪些,如何处理线性不可分数据,SMO算法的原理,有哪些常用工具包 | |
决策树 | 如何防止过拟合,写出遍历所有叶子节点代码,列举不纯度,写出Gini不纯度和交叉熵不纯度的公式,如何计算变量重要度 | |
随机森林 | 方差和偏差,模型效果与树数目M的关系,样本抽样和特征抽样 | |
Adaboost | 简述思想,写出伪代码,写出样本权重和分类器权重更新公式,如何处理多分类 | |
GBDT | 简述基本思想,与Adaboost的区别,如何处理分类问题 | |
人工神经网络 | 后向传播算法 | |
变量选择与评价 | 列举变量选择的算法 | |
降维 | PCA降维,SVD,LDA | |
聚类分析 | K-means聚类的思想,编码,高斯混合模型,EM算法 | |
关联规则挖掘 | Apriori算法,支持度,置信度 | |
模型选择与评价 | 交叉验证,ROC曲线绘制方法,其他模型评价指标 | |
自然语言处理 | N-gram语言模型 | 写出一个句子的概率公式 |
TF-IDF | 写出将文档转换成TF-IDF向量的伪代码 | |
中文模糊匹配 | 中文地址匹配,中文公司名称匹配 | |
最大熵模型 | 写出最大熵模型的预测公式 | |
HMM和CRF | 维特比算法,前向算法,后向算法。如何使用HMM和CRF进行中文分词 | |
话题分析和挖掘(LDA) | 概率图模型的基本知识,画出LDA的图形化表示,变分推理,Gibbs采样 | |
词向量(Word2Vec) | 深度学习,词向量 | |
情感分析与观点挖掘 | 情感分类的步骤,如何挖掘商品特性词,如何进行评论评级分类 | |
推荐系统 | 基本概念 | 数据稀疏,冷启动 |
基于邻域的方法 | UserCF和ItemCF及优缺点对比 | |
隐语义模型 | 矩阵分解,pLSA, LDA,隐含主题模型等 | |
基于内容的推荐 | 向量空间模型,基于文本分类的推荐方法等 | |
评测指标 | 评分预测RMSE和MAE,TopN推荐中的精度和召回率,覆盖率,多样性的含义 | |
时间序列分析 | 基本概念 | 拖尾性和截尾性的判断,自相关系数和偏自相关系数的概念等 |
模型理解 | ARIMA,ARCH, GARCH等 | |
大数据平台与数据处理 | MapReduce和Hadoop | 统计一个语料中词频的Map和Reduce伪代码 |
分布式算法实现 | 编写PageRank算法的Map和Reduce伪代码 | |
Spark | RDD基本思想, RDD两种操作和各自特点,描述一个Spark程序执行的流程 | |
大文件处理 | 100万的样本,计算某一列A的每一种取值的数量 | |
数据合并处理 | 将两个大文件进行连接的伪代码TableA(a,b), TableB(b,c) | |
数据分组处理 | 贷款记录表(贷款人,贷款ID,贷款类型,贷款额), 计算每一个贷款人每一种贷款的笔数和平均贷款额 | |
图算法与社交网络分析 | 基本概念 | 节点度数,亲密度(Closeness),介数(Betweenness) |
节点重要度算法 | PageRank和HITS算法 | |
最短路径 | 单源最短路径Dijkstra, 多源最短路径Floyd-Warshall算法 | |
社区发现 | 图上的社区发现算法 | |
图查询与索引 | 图索引概念,图的查询操作,子图匹配 | |
软技能 | 案例分析 | 可以拿实际项目中遇到的挑战性问题提问面试者的解决思路。 |
项目和实习经历描述 | 针对做过的相关的目提问项目目标,项目实施方法,综合了解面试者项目实际参与情况。 | |
综合素质 | 文档撰写能力 | 通信数据进行信用评分的数据分析文档,写出数据分析报告的提纲 |
沟通表达能力 | 这个主要根据面试者面试期间的表现评定,也可专门问一些问题。例如:如何让客户信服我们的技术实力? | |
时间规划能力 | 给你一个2个月的数据分析项目,如何进行项目规划? | |
智力测验 | 硬币翻转问题(100个硬币,10个朝上) |
注:以上表格是几年前我用来面试数据分析师的表格,仅代表我个人看法,近几年的一些新技术也没有包括在内。