常用机器学习与数据挖掘相关术语(该充充电了...)

Sampling(采样):

Simple Random Sampling(简单随机采样),

OfflineSampling(离线等可能K采样),

Online Sampling(在线等可能K采样),

Ratio-based Sampling(等比例随机采样),

Acceptance-RejectionSampling(接受-拒绝采样),

Importance Sampling(重要性采样),

MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法:Metropolis-Hasting& Gibbs)。

Clustering(聚类):

K-Means,

K-Mediods,

二分K-Means,

FK-Means,

Canopy,

Spectral-KMeans(谱聚类),

GMM-EM(混合高斯模型-期望最大化算法解决),

K-Pototypes,CLARANS(基于划分),

BIRCH(基于层次),

CURE(基于层次),

DBSCAN(基于密度),

CLIQUE(基于密度和基于网格)。

Classification&Regression(分类&回归):

LR(Linear Regression 线性回归),

LR(LogisticRegression逻辑回归),

SR(Softmax Regression 多分类逻辑回归),

GLM(GeneralizedLinear Model 广义线性模型),

RR(Ridge Regression 岭回归/L2正则最小二乘回归),

LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归),

RF(随机森林),

DT(DecisionTree决策树),

GBDT(Gradient BoostingDecision Tree 梯度下降决策树),

CART(ClassificationAnd Regression Tree 分类回归树),

KNN(K-Nearest Neighbor K近邻),

SVM(Support VectorMachine),

KF(KernelFunction 核函数PolynomialKernel Function 多项式核函、

Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、

String KernelFunction 字符串核函数)、

NB(Naive Bayes 朴素贝叶斯),BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络),

LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别),

EL(Ensemble Learning集成学习Boosting,Bagging,Stacking),

AdaBoost(Adaptive Boosting 自适应增强),

MEM(MaximumEntropy Model最大熵模型)。

Effectiveness Evaluation(分类效果评估):

Confusion Matrix(混淆矩阵),

Precision(精确度),Recall(召回率),

Accuracy(准确率),F-score(F得分),

ROC Curve(ROC曲线),AUC(AUC面积),

LiftCurve(Lift曲线) ,KS Curve(KS曲线)。

PGM(Probabilistic Graphical Models概率图模型):

BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络),

MC(Markov Chain 马尔科夫链),

HMM(HiddenMarkov Model 马尔科夫模型),

MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型),

CRF(ConditionalRandom Field 条件随机场),

MRF(MarkovRandom Field 马尔科夫随机场)。

NN(Neural Network神经网络):

ANN(Artificial Neural Network 人工神经网络),

BP(Error BackPropagation 误差反向传播)。

DeepLearning

Auto-encoder(自动编码器),

SAE(Stacked Auto-encoders堆叠自动编码器,

Sparse Auto-encoders稀疏自动编码器、

Denoising Auto-encoders去噪自动编码器、

Contractive Auto-encoders 收缩自动编码器),

RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机),

DBN(Deep Belief Network 深度信念网络),

CNN(ConvolutionalNeural Network 卷积神经网络),

Word2Vec(词向量学习模型)。

DimensionalityReduction(降维):

LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别,

PCA(Principal Component Analysis 主成分分析),

ICA(IndependentComponent Analysis 独立成分分析),

SVD(Singular Value Decomposition 奇异值分解),

FA(FactorAnalysis 因子分析法)。

Text Mining(文本挖掘):

VSM(Vector Space Model向量空间模型),

Word2Vec(词向量学习模型),

TF(Term Frequency词频),

TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率),

MI(MutualInformation 互信息),

ECE(Expected Cross Entropy 期望交叉熵),

QEMI(二次信息熵),

IG(InformationGain 信息增益),

IGR(Information Gain Ratio 信息增益率),

Gini(基尼系数),

x2 Statistic(x2统计量),

TEW(TextEvidence Weight文本证据权),

OR(Odds Ratio 优势率),

N-Gram Model,

LSA(Latent Semantic Analysis 潜在语义分析),

PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析),

LDA(Latent DirichletAllocation 潜在狄利克雷模型)。

Association Mining(关联挖掘):

Apriori,

FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法),

AprioriAll,

Spade。

Recommendation Engine(推荐引擎):

DBR(Demographic-based Recommendation 基于人口统计学的推荐),

CBR(Context-basedRecommendation 基于内容的推荐),

CF(Collaborative Filtering协同过滤),

UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐),

ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。

Similarity Measure&Distance Measure(相似性与距离度量):

Euclidean Distance(欧式距离),

ManhattanDistance(曼哈顿距离),

Chebyshev Distance(切比雪夫距离),

MinkowskiDistance(闵可夫斯基距离),

Standardized Euclidean Distance(标准化欧氏距离),

MahalanobisDistance(马氏距离),

Cos(Cosine 余弦),

HammingDistance/Edit Distance(汉明距离/编辑距离),

JaccardDistance(杰卡德距离),

Correlation Coefficient Distance(相关系数距离),

InformationEntropy(信息熵),

KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。

Feature Selection(特征选择算法):

Mutual Information(互信息),

DocumentFrequence(文档频率),

Information Gain(信息增益),

Chi-squared Test(卡方检验),

Gini(基尼系数)。

Outlier Detection(异常点检测算法):

Statistic-based(基于统计),

Distance-based(基于距离),

Density-based(基于密度),

Clustering-based(基于聚类)。

Learning to Rank(基于学习的排序):

Pointwise:McRank;

Pairwise:RankingSVM,RankNet,Frank,RankBoost;

Listwise:AdaRank,SoftRank,LamdaMART。

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2017-03-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Small Code

【TensorFlow】TensorFlow的线性回归

前面 有篇博文 讲了讲Ubuntu环境下安装TensorFlow,今天来说一说在TensorFlow中如何进行线性回归。 训练数据 本次使用的训练数据是美国房价...

52690
来自专栏PPV课数据科学社区

【学习】常用的机器学习&数据挖掘知识点

Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Squa...

372120
来自专栏专知

【论文推荐】最新5篇推荐系统相关论文—文档向量矩阵分解、异构网络融合、树结构深度模型、深度强化学习、负二项矩阵分解

【导读】专知内容组整理了最近五篇推荐系统(Recommender System)相关文章,为大家进行介绍,欢迎查看! 1. ParVecMF: A Paragr...

47740
来自专栏专知

【论文推荐】最新5篇行人再识别(ReID)相关论文—迁移学习、特征集成、重排序、 多通道金字塔、深层生成模型

【导读】专知内容组整理了最近五篇行人再识别(Person Re-identification)相关文章,为大家进行介绍,欢迎查看! 1.Unsupervised...

53270
来自专栏数据科学学习手札

(数据科学学习手札20)主成分分析原理推导&Python自编函数实现

主成分分析(principal component analysis,简称PCA)是一种经典且简单的机器学习算法,其主要目的是用较少的变量去解释原来资料中的大部...

43670
来自专栏算法channel

算法channel关键词和文章索引

希望时间的流逝不仅仅丰富了我们的阅历,更重要的是通过提炼让我们得以升华,走向卓越。 1Tags 排序算法 链表 树 图 动态规划 ...

34850
来自专栏专知

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

25360
来自专栏专知

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【导读】专知内容组整理了最近六篇视频分类(Video Classification)相关文章,为大家进行介绍,欢迎查看! 1. Hierarchical Lab...

54250
来自专栏专知

【论文推荐】最新八篇机器翻译相关论文—自注意力残差解码器、条件序列生成式对抗网络、检索译文、域自适应、细粒度注意力机制

29840
来自专栏专知

【论文推荐】最新六篇网络节点表示相关论文—传播网络嵌入、十亿级网络节点表示、综述、属性感知、贝叶斯个性化排序、复杂网络分类

29920

扫码关注云+社区

领取腾讯云代金券