机器学习利器之汇总

机器学习之禅

发布于 2022-07-11 14:52:50

1690

发布于 2022-07-11 14:52:50

机器学习利器之汇总

一直想写些东西来记录我的机器学习之路（包括学术和工业），经过N多次决定，终于下定决心把自己积累的点点滴滴保存下来，一方面帮助自己更好的归纳之前研究和使用过的技术，另一方面希望大家多多提出宝贵意见，一起学习进步，有说的不对的地方还请多多包涵。

在接下来的很长一段时间，我会从数据结构、基础算法、数值分析、自然语言处理（NLP）、机器学习（ML）、深度学习（DL）等方面与大家一起学习。

我目前主要从事的是新闻算法推荐领域的工作，因此更多的例子可能还是在文本处理方面，本篇主要和大家一起分享下文本特征筛选方面的一些工作。

文本特征选择

无论目前文本特征选择的方法还是比较多的，特别是在深度学习推出之后，可能大大解放了我们在特征选取方面的要求。

特征选择主要包括基于TF-IDF、信息增益、卡方检验和互信息等

TF-IDF TF-IDF是一种统计方法，用以评价一个词语对于一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。 TF（词频）表示词条在文档d中出现的频率，这个数字是对词数(term count)的归一化，以防止它偏向长的文件。词频 = 某个词在文章中出现的总次数/文章的总词数 IDF（逆文档频率）表示如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。逆文档频率（IDF） = log（词料库的文档总数/包含该词的文档数+1）
信息增益（Info Gain）在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。以下公式以二分类为例进行说明（推广到多分类是一样的）：