朴素贝叶斯完成新闻分类

朴素贝叶斯

朴素指的是"独立" 朴素贝叶斯是分类算法,可以给出每种类别发生的概率 善于计算几个独立事件同时发生的概率(文章分类)

关于独立事件(职业, 体型, 身高 各自独立)

样本编号

职业

体型

身高

女神的喜好

1

程序员

匀称

很高

喜欢

2

产品

很矮

不看

3

美术

中等

喜欢

4

产品

中等

喜欢

5

程序员

很矮

不看

6

美术

很高

不看

  • 在女神喜欢的条件下, 职业是产品,并且身高很高, 并且体型匀称的概率? 1/27
P(产品, 很高, 匀称,|女神喜欢) = P(产品 | 女神喜欢) * P(很高 | 女神喜欢)* P( 匀称 | 女神喜欢 ) 
1/27 = (1/3)*(1/3)*(1/3)

朴素贝叶斯公式:

W为文章的特征组(特定文章中各词组出现的频率),C为特定的类别

  • 公式右侧
  • P(F1, F2, ... | C) = P(F1 | C) * P(F2 | C) * (F... | C),表示 特定类别下,特定词组出现的概率 的乘积
  • P(C), 表示 特定类别的文章, 在所有文章中出现的概率
  • P(F1, F2, F...) = P(F1) * P(F2) * P(F...) , 表示 特定词组在所有文章中出现的概率 的乘积

案例:为文章进行分类

from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

def naivebayes():
    # 获取数据集级
    news = fetch_20newsgroups(subset="all")
    # 分割数据集
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)

    # 进行tfidf特征抽取
    tf = TfidfVectorizer()
    x_train = tf.fit_transform(x_train)
    x_test = tf.transform(x_test)

    # 通过朴素贝叶斯进行预测(拉普拉斯平滑系数为设置为1)
    mlb = MultinomialNB(alpha=1)
    mlb.fit(x_train, y_train)

    rate = mlb.score(x_test, y_test)
    print("预测准确率为:", rate)

if __name__ == '__main__':
    naivebayes()

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

人工智能进行连续决策的关键——强化学习入门指南

1322
来自专栏新智元

【全自动机器学习】ML 工程师屠龙利器,一键接收训练好的模型

【新智元导读】机器学习系统有大量的超参数,在应用中需要依赖领域专家知识,并且有繁重的人工调参任务。现在,有一项工作希望让这些过程自动化,只需一个按钮,就能让你得...

4677
来自专栏量子位

谁是真凶?《CSI:犯罪现场调查》正帮助AI提高断案能力

问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 曾经的王牌美剧《CSI:犯罪现场调查》,现在成了AI用来提高断案推理能力的试验场。 这部剧集厉不厉害...

3363
来自专栏华章科技

PM2.5这个锅背的值吗?数据科学家建模给你论证下

当看到诸如“我们都在等待第一批死在北京的人”等一些耸人听闻的新闻标题时,我真的很想知道,近年来北京的空气质量到底是有所改善还是逐步恶化?

773
来自专栏杨熹的专栏

一文了解强化学习

虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应...

3556
来自专栏专知

【博文推荐】本月机器学习Top 10 文章/教程汇总(2018.11)

【导读】本文由Mybridge发布,在评估了近1400篇机器学习文章后,挑选出11月机器学习Top 10的文章教程(0.7%的几率)。现由专知编译如下。

1333
来自专栏CDA数据分析师

原创重磅!数据分析在交易欺诈领域的应用

一 交易欺诈简介 1.1 交易欺诈简介 交易欺诈一般是指第三方欺诈,即所发生的交易非持卡人本人意愿的交易。通常是不法分子利用各种渠道窃取卡信息,进行伪造卡作案。...

4796
来自专栏新智元

哺乳动物大脑神经元也能做深度学习,未来10年神经科学与人工智能将迎突破

来源:CIFAR,EurekAlert! 作者:费欣欣 【新智元导读】多伦多大学和DeepMind研究人员合作,通过实验表明某些哺乳动物的神经元也能进行深度学习...

4118
来自专栏james大数据架构

你必须要了解的大数据潮流下的机器学习及应用场景

  机器学习是一门人工智能的科学,能通过经验自动改进的计算机算法的研究。       机器学习是一个多学科交叉的领域,会涉及到计算机、信息学、数学、统计学、神经...

4248
来自专栏机器之心

学界 | 如何帮助大家找工作?领英利用深度表征学习提升人才搜索和推荐系统

领英征才解决方案(LinkedIn Talent Solutions,LTS)业务为领英贡献了大约 65% 的年收入,该业务方便职位提供者接触潜在应聘者,也方便...

1103

扫码关注云+社区