来源 | Stanford University
整理 | fendouai
编辑 | 安可
【磐创AI导读】:本文简单介绍了文本分类和朴素贝叶斯。什么是文本分类?怎么把应用多项朴素贝叶斯分类器到文本分类?让我们一起阅读本文,寻找答案吧!想要学习更多的机器学习、深度学习知识,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。
一、文本分类
1. 文本分类问题举例:
2. 文本分类的应用
3. 定义文本分类
一个文本 d
一组分类 C={c1,c2,…, cJ}
一个预测的分类 c∈C
4. 分类方法
1)手写规则
2)有监督机器学习
一个文本 d
一组分类 C={c1,c2,…, cJ}
一个手动打标的训练集 (d1,c1),....,(dm,cm)
一个分类器 γ : d->c
b. 逻辑回归
c. 支持向量机
d. K 近邻
二、朴素贝叶斯
1. 基于贝叶斯规则的简单分类方法
2. 依赖于简单的文本表示——词袋模型
1)词袋模型表示
2)词袋模型表示:使用单词的子集
词袋模型表示
3. 形式化朴素贝叶斯分类器
对于一个文档 d 和一个分类 c
MAP 是最大化后验概率,或者说:最有可能的类别。
根据贝叶斯规则,转化为
去掉共同的分母,转化为
文档 d 表示为 特征 x1 .. xn
这个类别出现的概率是多少?我们可以只计算在语料中的相对的频率,这些参数是不是只有在非常非常大的训练集的情况下才能够确认。
4. 多项朴素贝叶斯独立假设
可以推出以下等式:
多项朴素贝叶斯分类器
三、应用多项朴素贝叶斯分类器到文本分类
positions 在测试文档中所有的词位置
编译自:
https://web.stanford.edu/class/cs124/lec/naivebayes.pdf