>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> from sklearn.naive_bayes import GaussianNB
>>> gnb = GaussianNB()
>>> y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)
>>> print("Number of mislabeled points out of a total %d points : %d"
...       % (iris.data.shape[0],(iris.target != y_pred).sum()))
Number of mislabeled points out of a total 150 points : 6

1.9.2. 多项分布朴素贝叶斯

MultinomialNB 实现了服从多项分布数据的朴素贝叶斯算法，也是用于文本分类(这个领域中数据往往以词向量表示，尽管在实践中 tf-idf 向量在预测时表现良好)的两大经典朴素贝叶斯算法之一。分布参数由每类

的

向量决定，式中

是特征的数量(对于文本分类，是词汇量的大小)

是样本中属于类

中特征

概率

。

参数

使用平滑过的最大似然估计法来估计，即相对频率计数:

式中

是训练集

中特征

在类

中出现的次数，

是类

中出现所有特征的计数总和。

先验平滑因子

应用于在学习样本中没有出现的特征，以防在将来的计算中出现0概率输出。把

被称为拉普拉斯平滑(Lapalce smoothing)，而

被称为利德斯通(Lidstone smoothing)。

1.9.3. 伯努利朴素贝叶斯

BernoulliNB 实现了用于多重伯努利分布数据的朴素贝叶斯训练和分类算法，即有多个特征，但每个特征都假设是一个二元 (Bernoulli, boolean) 变量。因此，这类算法要求样本以二元值特征向量表示；如果样本含有其他类型的数据，一个 BernoulliNB 实例会将其二值化(取决于 binarize 参数)。

伯努利朴素贝叶斯的决策规则基于

与多项分布朴素贝叶斯的规则不同伯努利朴素贝叶斯明确地惩罚类

中没有出现作为预测因子的特征

，而多项分布分布朴素贝叶斯只是简单地忽略没出现的特征。

在文本分类的例子中，词频向量(word occurrence vectors)(而非词数向量(word count vectors))可能用于训练和用于这个分类器。 BernoulliNB 可能在一些数据集上可能表现得更好，特别是那些更短的文档。如果时间允许，建议对两个模型都进行评估。

参考文献:

C.D. Manning, P. Raghavan and H. Schütze (2008). Introduction to Information Retrieval. Cambridge University Press, pp. 234-265.
A. McCallum and K. Nigam (1998). A comparison of event models for Naive Bayes text classification. Proc. AAAI/ICML-98 Workshop on Learning for Text Categorization, pp. 41-48.
V. Metsis, I. Androutsopoulos and G. Paliouras (2006). Spam filtering with Naive Bayes – Which Naive Bayes? 3rd Conf. on Email and Anti-Spam (CEAS).

1.9.4. 堆外朴素贝叶斯模型拟合

朴素贝叶斯模型可以解决整个训练集不能导入内存的大规模分类问题。为了解决这个问题， MultinomialNB, BernoulliNB, 和 GaussianNB 实现了 partial_fit 方法，可以动态的增加数据，使用方法与其他分类器的一样，使用示例见 Out-of-core classification of text documents 。所有的朴素贝叶斯分类器都支持样本权重。

与 fit 方法不同，首次调用 partial_fit 方法需要传递一个所有期望的类标签的列表。

对于 scikit-learn 中可用方案的概览，另见 out-of-core learning 文档。

所有朴素贝叶斯模型调用 partial_fit 都会引入一些计算开销。推荐让数据快越大越好，其大小与 RAM 中可用内存大小相同。

中文文档: http://sklearn.apachecn.org/cn/stable/modules/naive_bayes.html

官方文档: http://scikit-learn.org/stable/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh（觉得不错麻烦给个 Star，我们一直在努力）

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

关于我们: http://www.apachecn.org/organization/209.html

有兴趣的们也可以和我们一起来维护，持续更新中。。。

机器学习交流群: 629470233