前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >想当数据科学家?敢不敢来看一下这份测评表!

想当数据科学家?敢不敢来看一下这份测评表!

作者头像
数据科学人工智能
发布2022-03-30 16:34:05
2890
发布2022-03-30 16:34:05
举报
文章被收录于专栏:数据科学和人工智能

数据分析(工程)师/数据科学家能力测评表

模块

知识点

问题示例

概率和统计

线性回归和正则化

写出不同正则化的线性回归损失函数,R2, 参数估计

概率分布

写出高斯分布的概率密度函数

统计检验

t检验,什么是P_value,卡方检验

采样

Gibbs采样,MCMC

分层采样,分组采样

贝叶斯公式

写出贝叶斯公式。两个盒子分别有r1, r2个红球, b1,b2个蓝色球,现在小明抽到一个红球,问这个红球来自第一个盒子的概率是多少?

参数估计

矩估计,最大似然估计的理论基础,区间估计中随机区间及相应概率的理解。

数据清洗与可视化

缺失值处理

列举缺失值处理的常用方法,写出对应的代码

异常值检测

列举异常值检测的方法

特征离散化

特征离散化的常用方法

数据可视化

变量相关性,散点图,箱线图,直方图(代码)

机器学习

朴素贝叶斯

写出贝叶斯公式,推导朴素贝叶斯进行文本分类的算法

逻辑回归

写出预测函数,logistic函数的求导,写出参数学习的迭代公式

SVM

原问题和对偶问题,样本量大的时候如何选取,核函数有哪些,如何处理线性不可分数据,SMO算法的原理,有哪些常用工具包

决策树

如何防止过拟合,写出遍历所有叶子节点代码,列举不纯度,写出Gini不纯度和交叉熵不纯度的公式,如何计算变量重要度

随机森林

方差和偏差,模型效果与树数目M的关系,样本抽样和特征抽样

Adaboost

简述思想,写出伪代码,写出样本权重和分类器权重更新公式,如何处理多分类

GBDT

简述基本思想,与Adaboost的区别,如何处理分类问题

人工神经网络

后向传播算法

变量选择与评价

列举变量选择的算法

降维

PCA降维,SVD,LDA

聚类分析

K-means聚类的思想,编码,高斯混合模型,EM算法

关联规则挖掘

Apriori算法,支持度,置信度

模型选择与评价

交叉验证,ROC曲线绘制方法,其他模型评价指标

自然语言处理

N-gram语言模型

写出一个句子的概率公式

TF-IDF

写出将文档转换成TF-IDF向量的伪代码

中文模糊匹配

中文地址匹配,中文公司名称匹配

最大熵模型

写出最大熵模型的预测公式

HMM和CRF

维特比算法,前向算法,后向算法。如何使用HMM和CRF进行中文分词

话题分析和挖掘(LDA)

概率图模型的基本知识,画出LDA的图形化表示,变分推理,Gibbs采样

词向量(Word2Vec)

深度学习,词向量

情感分析与观点挖掘

情感分类的步骤,如何挖掘商品特性词,如何进行评论评级分类

推荐系统

基本概念

数据稀疏,冷启动

基于邻域的方法

UserCF和ItemCF及优缺点对比

隐语义模型

矩阵分解,pLSA, LDA,隐含主题模型等

基于内容的推荐

向量空间模型,基于文本分类的推荐方法等

评测指标

评分预测RMSE和MAE,TopN推荐中的精度和召回率,覆盖率,多样性的含义

时间序列分析

基本概念

拖尾性和截尾性的判断,自相关系数和偏自相关系数的概念等

模型理解

ARIMA,ARCH, GARCH等

大数据平台与数据处理

MapReduce和Hadoop

统计一个语料中词频的Map和Reduce伪代码

分布式算法实现

编写PageRank算法的Map和Reduce伪代码

Spark

RDD基本思想, RDD两种操作和各自特点,描述一个Spark程序执行的流程

大文件处理

100万的样本,计算某一列A的每一种取值的数量

数据合并处理

将两个大文件进行连接的伪代码TableA(a,b), TableB(b,c)

数据分组处理

贷款记录表(贷款人,贷款ID,贷款类型,贷款额), 计算每一个贷款人每一种贷款的笔数和平均贷款额

图算法与社交网络分析

基本概念

节点度数,亲密度(Closeness),介数(Betweenness)

节点重要度算法

PageRank和HITS算法

最短路径

单源最短路径Dijkstra, 多源最短路径Floyd-Warshall算法

社区发现

图上的社区发现算法

图查询与索引

图索引概念,图的查询操作,子图匹配

软技能

案例分析

可以拿实际项目中遇到的挑战性问题提问面试者的解决思路。

项目和实习经历描述

针对做过的相关的目提问项目目标,项目实施方法,综合了解面试者项目实际参与情况。

综合素质

文档撰写能力

通信数据进行信用评分的数据分析文档,写出数据分析报告的提纲

沟通表达能力

这个主要根据面试者面试期间的表现评定,也可专门问一些问题。例如:如何让客户信服我们的技术实力?

时间规划能力

给你一个2个月的数据分析项目,如何进行项目规划?

智力测验

硬币翻转问题(100个硬币,10个朝上)

注:以上表格是几年前我用来面试数据分析师的表格,仅代表我个人看法,近几年的一些新技术也没有包括在内。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档