前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习利器之汇总

机器学习利器之汇总

作者头像
机器学习之禅
发布2022-07-11 14:52:50
1690
发布2022-07-11 14:52:50
举报
文章被收录于专栏:机器学习之禅机器学习之禅

机器学习利器之汇总

一直想写些东西来记录我的机器学习之路(包括学术和工业),经过N多次决定,终于下定决心把自己积累的点点滴滴保存下来,一方面帮助自己更好的归纳之前研究和使用过的技术,另一方面希望大家多多提出宝贵意见,一起学习进步,有说的不对的地方还请多多包涵。

在接下来的很长一段时间,我会从数据结构、基础算法、数值分析、自然语言处理(NLP)、机器学习(ML)、深度学习(DL)等方面与大家一起学习。

我目前主要从事的是新闻算法推荐领域的工作,因此更多的例子可能还是在文本处理方面,本篇主要和大家一起分享下文本特征筛选方面的一些工作。

文本特征选择

无论目前文本特征选择的方法还是比较多的,特别是在深度学习推出之后,可能大大解放了我们在特征选取方面的要求。

特征选择主要包括基于TF-IDF、信息增益、卡方检验和互信息等

  • TF-IDF TF-IDF是一种统计方法,用以评价一个词语对于一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF(词频)表示词条在文档d中出现的频率,这个数字是对词数(term count)的归一化,以防止它偏向长的文件。 词频 = 某个词在文章中出现的总次数/文章的总词数 IDF(逆文档频率)表示如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。 逆文档频率(IDF) = log(词料库的文档总数/包含该词的文档数+1)
  • 信息增益(Info Gain) 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。以下公式以二分类为例进行说明(推广到多分类是一样的):

Entropy(S)可以认为是样本空间中所有点的信息熵,而Gain(S ,A)则为A特征的信息增益值,以下表中的天气数据集为例子:

该数据集的特征维度为4,目的是判断能否出去玩,即我们需要标记的标签。 初始状态下,label列总共为14行,有9个yes和5个no,所以label列初始信息熵为:

假设我们先划分outlook这一列,分成sunny、rain、overcast三类,数量分别为5:5:4,考虑到每个类别下对应的label不同,可以计算出划分后的信息熵:

其中E(S1)、E(S2)、E(S3)分别为每个类别下对应的label列的信息熵。 则关于A特征的信息增益值即为:

信息增益值越大,则说明该特征的区分能力越强。 第一次写博客,难免有遗漏和照顾不周之处,还请多多包涵,下次继续和大家讨论关于特征筛选的卡方检验和互信息方法,谢谢大家。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习之禅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档