机器学习经典算法：多项式朴素贝叶斯（Multinomial Naive Bayes）原理、手动计算与Python/Java双代码实战

原创

jack.yang

发布于 2026-03-29 13:46:30

2250

文章被收录于专栏：大模型系列大模型系列

一句话答案：多项式朴素贝叶斯是处理词频计数数据的王者，专为文本分类而生。10行代码即可实现新闻主题分类，准确率超90%！

如果你在搜索：

“多项式朴素贝叶斯怎么算的？”
“Multinomial NB 手动计算例子”
“文本分类为什么用多项式朴素贝叶斯？”
“Python 和 Java 怎么实现多项式朴素贝叶斯？”

那么，这篇文章就是为你写的——从词频统计到概率计算，一步不跳。

一、什么是多项式朴素贝叶斯？它和伯努利、高斯有何不同？

朴素贝叶斯家族有三大主力成员，选择哪个取决于你的数据形态：

算法类型	适用数据	核心假设	典型场景
多项式朴素贝叶斯	离散计数（如词频）	特征服从多项式分布	新闻分类、情感分析、垃圾邮件过滤
伯努利朴素贝叶斯	二值特征（0/1）	特征是布尔值	短文本、关键词存在性判断
高斯朴素贝叶斯	连续数值	特征服从正态分布	身高、温度、成绩等连续数据

🤔 为什么文本分类首选多项式？

文本天然可表示为词袋模型（Bag of Words）：每个词出现多少次。
“人工智能”出现5次 vs 出现1次，信息量显然不同。
多项式NB利用词频信息，而伯努利NB只关心“是否出现”，会丢失重要信号。

💡 核心思想：对于每个类别，每个词都有一个独立的概率。新文档的类别，由其所有词的频率加权决定。

二、数学原理：多项式分布 + 贝叶斯定理

我们要计算：

根据贝叶斯定理和独立性假设：

其中：

📐 词概率估计（带拉普拉斯平滑）

为避免零概率，使用拉普拉斯平滑（Laplace Smoothing）：

α ：平滑参数（通常取1）
N ：词汇表大小（唯一词总数）

⚠️ 注意：分母是该类别的总词数（不是文档数），因为多项式模型关注的是生成过程中的词频。

三、手工推演：一步步计算新闻分类（带完整数据）

📊 训练数据集（3篇新闻，2个类别）

新闻ID	内容（分词后）	类别
1	["科技", "人工智能", "发展", "迅速"]	科技 (0)
2	["科技", "公司", "发布", "新产品"]	科技 (0)
3	["体育", "比赛", "精彩", "激烈"]	体育 (1)

目标：预测新文档 ["人工智能", "比赛"] 属于哪个类别？

🔢 步骤1：构建词袋并统计词频

词汇表（Vocabulary）：

["科技", "人工智能", "发展", "迅速", "公司", "发布", "新产品", "体育", "比赛", "精彩", "激烈"] → N = 11

各类别词频统计：

科技类 (0)：
- 总词数 = 4 + 4 = 8
- “科技”: 2次, “人工智能”: 1次, “发展”: 1次, “迅速”: 1次, “公司”: 1次, “发布”: 1次, “新产品”: 1次
体育类 (1)：
- 总词数 = 4
- “体育”: 1次, “比赛”: 1次, “精彩”: 1次, “激烈”: 1次

🔢 步骤2：计算先验概率 (P(C))

总文档数 = 3
科技类文档数 = 2 → (P(0) = 2/3 ≈ 0.667)
体育类文档数 = 1 → (P(1) = 1/3 ≈ 0.333)

🔢 步骤3：计算条件概率 (P(wi | Ck))（α=1）

科技类 (0)：

(P(人工智能|0) = (1 + 1) / (8 + 1×11) = 2 / 19 ≈ 0.105)
(P(比赛|0) = (0 + 1) / 19 = 1 / 19 ≈ 0.053)
（其他词略）

体育类 (1)：

(P(人工智能|1) = (0 + 1) / (4 + 11) = 1 / 15 ≈ 0.067)
(P(比赛|1) = (1 + 1) / 15 = 2 / 15 ≈ 0.133)

🔢 步骤4：计算新文档 `["人工智能", "比赛"]` 的后验概率

新文档词频：人工智能:1, 比赛:1

科技类 (0)：

体育类 (1)：

✅ 结论：0.00372 > 0.00297 → 判定为 科技 (0)

尽管“比赛”是体育词，但“人工智能”的权重更高（在科技类中概率更大），且科技类先验概率也更高，最终被判为科技新闻。

四、Python 实现（scikit-learn + 手写版）

✅ 方式1：使用 scikit-learn（推荐生产环境）

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# 数据
texts = [
    "科技 人工智能 发展 迅速",
    "科技 公司 发布 新产品",
    "体育 比赛 精彩 激烈"
]
labels = [0, 0, 1]  # 0=科技, 1=体育

# 向量化（词频计数）
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 训练
clf = MultinomialNB(alpha=1.0)  # alpha=1 即拉普拉斯平滑
clf.fit(X, labels)

# 预测
new_text = vectorizer.transform(["人工智能 比赛"])
pred = clf.predict(new_text)
print("预测结果:", "科技" if pred[0] == 0 else "体育")
# 输出: 科技

✅ 方式2：手写核心逻辑

import numpy as np
from collections import defaultdict

class MultinomialNB:
    def __init__(self, alpha=1.0):
        self.alpha = alpha
    
    def fit(self, docs, labels):
        # 构建词汇表
        vocab = set(word for doc in docs for word in doc)
        self.vocab = {word: i for i, word in enumerate(vocab)}
        self.n_vocab = len(vocab)
        
        # 统计
        class_counts = defaultdict(int)
        word_counts = defaultdict(lambda: np.zeros(self.n_vocab))
        total_words = defaultdict(int)
        
        for doc, label in zip(docs, labels):
            class_counts[label] += 1
            for word in doc:
                if word in self.vocab:
                    word_counts[label][self.vocab[word]] += 1
                    total_words[label] += 1
        
        # 先验概率
        total_docs = len(labels)
        self.priors = {label: count / total_docs for label, count in class_counts.items()}
        
        # 条件概率（带平滑）
        self.cond_prob = {}
        for label in class_counts:
            smoothed_counts = word_counts[label] + self.alpha
            smoothed_total = total_words[label] + self.alpha * self.n_vocab
            self.cond_prob[label] = smoothed_counts / smoothed_total
    
    def predict(self, docs):
        predictions = []
        for doc in docs:
            scores = {}
            for label in self.priors:
                log_score = np.log(self.priors[label])
                for word in doc:
                    if word in self.vocab:
                        idx = self.vocab[word]
                        log_score += np.log(self.cond_prob[label][idx])
                scores[label] = log_score
            predictions.append(max(scores, key=scores.get))
        return predictions

# 使用
docs = [["科技","人工智能","发展","迅速"], ["科技","公司","发布","新产品"], ["体育","比赛","精彩","激烈"]]
nb = MultinomialNB(alpha=1.0)
nb.fit(docs, [0,0,1])
print(nb.predict())  # 输出: [0]

五、Java 实现（纯手写，无第三方库）

import java.util.*;

public class MultinomialNaiveBayes {
    private Map<String, Integer> vocab = new HashMap<>();
    private Map<Integer, Double> priors = new HashMap<>();
    private Map<Integer, double[]> condProb = new HashMap<>();
    private int vocabSize;
    private double alpha;

    public MultinomialNaiveBayes(double alpha) {
        this.alpha = alpha;
    }

    public void fit(List<List<String>> docs, List<Integer> labels) {
        // 构建词汇表
        Set<String> wordSet = new HashSet<>();
        for (List<String> doc : docs) {
            wordSet.addAll(doc);
        }
        int idx = 0;
        for (String word : wordSet) {
            vocab.put(word, idx++);
        }
        vocabSize = vocab.size();

        // 统计类别文档数
        Map<Integer, Integer> classDocCount = new HashMap<>();
        for (int label : labels) {
            classDocCount.put(label, classDocCount.getOrDefault(label, 0) + 1);
        }

        // 统计词频和总词数
        Map<Integer, int[]> wordFreq = new HashMap<>();
        Map<Integer, Integer> totalWords = new HashMap<>();
        for (int label : classDocCount.keySet()) {
            wordFreq.put(label, new int[vocabSize]);
            totalWords.put(label, 0);
        }

        for (int i = 0; i < docs.size(); i++) {
            int label = labels.get(i);
            for (String word : docs.get(i)) {
                if (vocab.containsKey(word)) {
                    int wIdx = vocab.get(word);
                    wordFreq.get(label)[wIdx]++;
                    totalWords.put(label, totalWords.get(label) + 1);
                }
            }
        }

        // 先验概率
        int totalDocs = labels.size();
        for (int label : classDocCount.keySet()) {
            priors.put(label, (double) classDocCount.get(label) / totalDocs);
        }

        // 条件概率（拉普拉斯平滑）
        for (int label : classDocCount.keySet()) {
            double[] prob = new double[vocabSize];
            int totalWordCount = totalWords.get(label);
            for (int i = 0; i < vocabSize; i++) {
                prob[i] = (wordFreq.get(label)[i] + alpha) / (totalWordCount + alpha * vocabSize);
            }
            condProb.put(label, prob);
        }
    }

    public int predict(List<String> doc) {
        Map<Integer, Double> scores = new HashMap<>();
        for (int label : priors.keySet()) {
            double logScore = Math.log(priors.get(label));
            for (String word : doc) {
                if (vocab.containsKey(word)) {
                    int wIdx = vocab.get(word);
                    logScore += Math.log(condProb.get(label)[wIdx]);
                }
            }
            scores.put(label, logScore);
        }
        return Collections.max(scores.entrySet(), Map.Entry.comparingByValue()).getKey();
    }

    // 测试
    public static void main(String[] args) {
        List<List<String>> docs = Arrays.asList(
            Arrays.asList("科技", "人工智能", "发展", "迅速"),
            Arrays.asList("科技", "公司", "发布", "新产品"),
            Arrays.asList("体育", "比赛", "精彩", "激烈")
        );
        List<Integer> labels = Arrays.asList(0, 0, 1);

        MultinomialNaiveBayes nb = new MultinomialNaiveBayes(1.0);
        nb.fit(docs, labels);

        List<String> testDoc = Arrays.asList("人工智能", "比赛");
        int prediction = nb.predict(testDoc);
        System.out.println("预测结果: " + (prediction == 0 ? "科技" : "体育"));
        // 输出: 科技
    }
}

六、优缺点 & 适用场景总结

优点	缺点
✅ 天然适配文本词频数据	❌ 假设词之间独立（忽略语序和上下文）
✅ 训练和预测极快	❌ 对罕见词敏感（需平滑）
✅ 小样本下表现优异	❌ 无法处理未登录词（OOV）
✅ 概率输出可解释	❌ 词频可能被长文档主导（可配合TF-IDF）

🎯 最佳应用场景：

新闻/文章自动分类
用户评论情感分析（正面/负面）
垃圾邮件检测
任何基于词频的离散计数分类任务

七、后续算法预告（均含手工推演 + 双语言代码）

本系列将持续更新以下算法，每篇均包含：

真实数据手工一步步计算
Python + Java 完整可运行代码

即将发布：

K近邻（KNN）：从欧氏距离到手写数字识别
决策树（ID3/C4.5）：信息增益如何分裂节点？
支持向量机（SVM）：硬间隔、软间隔、核函数全解析
逻辑回归：从sigmoid到梯度下降

✅ 结语

多项式朴素贝叶斯用最朴素的独立假设，驾驭了最复杂的语言世界。它不理解语法，却能读懂情感；它不分析逻辑，却能分辨主题。

记住：在NLP的浩瀚海洋中，有时简单统计就是最强大的罗盘。

现在，你已经能：

手动计算多项式朴素贝叶斯分类结果
用Python或Java从零实现它
理解为何它是文本分类的工业标准之一

关键词：机器学习、多项式朴素贝叶斯、Multinomial Naive Bayes、文本分类、词频、拉普拉斯平滑、新闻分类、情感分析、Python 多项式朴素贝叶斯、Java 多项式朴素贝叶斯、手动计算

相关链接

📂 大模型技术专栏：欢迎您到访「大模型系列」。在这个由参数驱动、以数据为燃料的新智能时代，大语言模型（LLM）已不再是实验室里的前沿概念，而是正在重塑搜索、办公、编程、教育、医疗乃至整个数字世界的底层引擎。从 GPT 到 Llama，从 Claude 到 Qwen，从推理到多模态，大模型正以前所未有的速度进化——它们既是工具，也是平台，更可能是下一代人机交互的“操作系统”。本系列将带你：
- 🔍 深入原理：从 Transformer 架构、注意力机制到训练范式（预训练、微调、RLHF）；
- ⚙️ 动手实践：本地部署、模型微调、RAG 构建、Agent 设计等实战指南；
- 🧠 理解边界：幻觉、偏见、安全对齐、推理瓶颈与当前能力天花板；
- 🌍 洞察趋势：开源 vs 闭源、端侧部署、MoE 架构、世界模型与 AGI 路径；
- 💼 落地应用：如何在企业中安全、高效、低成本地集成大模型能力。
无论你是想写代码调用 API 的开发者，设计 AI 产品的 PM，评估技术路线的管理者，还是单纯好奇智能本质的思考者，这里都有值得你驻足的内容。不追 hype，只讲逻辑；不谈玄学，专注可复现的认知。让我们一起，在这场百年一遇的智能革命中，看得更清，走得更稳 https://cloud.tencent.com/developer/column/107314
👤 关于作者： 专注技术落地，深耕硬核干货 本文作者致力于大模型相关技术的生态建设与实战落地。不同于浅层的概念科普，作者坚持 “手算 + 代码” 的深度分享模式，主张通过手动推演理解算法本质，结合生产级代码验证理论可行性。请关注我主页：https://cloud.tencent.com/developer/user/2276240

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习

机器学习算法

自动化机器学习

机器学习平台

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度