前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《模式识别与智能计算》基于二值数据的贝叶斯分类实现

《模式识别与智能计算》基于二值数据的贝叶斯分类实现

作者头像
Max超
发布2020-02-12 18:48:46
5490
发布2020-02-12 18:48:46
举报
文章被收录于专栏:蓝桥杯历年省赛真题集
算法流程
  1. 将数据二值化
  2. 计算每类数字的先验概率
  3. 计算条件概率
  4. 计算后验概率 (具体计算过程请见书上77页)
算法实现

贝叶斯算法

代码语言:javascript
复制
def bayeserzhi(x_train,y_train,sample):
    """
    :function 基于二值数据的贝叶斯分类器
    :param x_train: 训练集 M*N  M为样本个数 N为特征个数
    :param y_train: 训练集标签 1*M
    :param sample: 待识别样品
    :return: 返回判断类别
    """
    #后验概率
    pwx = []

    target = np.unique(y_train)

    spit = 0.5 * (np.max(x_train) - np.min(x_train))
    train = np.where(x_train > spit, 1, 0)
    sample = np.where(sample > spit, 1, 0)

    for i in target:
        trainIndex = (([j for j, y in enumerate(y_train) if y == i]))
        trainNum = len(trainIndex)
        # 计算先验概率
        pw = trainNum/x_train.shape[0]
        # 计算类条件概率
        p = (np.sum(train[trainIndex],axis=0)+1)/(trainNum+2)
        pxw = 1
        for j in range(train.shape[1]):
            if sample[j]:
                pxw *= p[j]
            else:
                pxw *= (1-p[j])
        #计算pxw*pw
        pwx.append(pxw*pw)
    pwx = pwx/np.sum(pwx)
    maxId = np.argmax(pwx)
    label = target[maxId]
    return label

划分数据集

代码语言:javascript
复制
def train_test_split(x,y,ratio = 3):
    """
    :function: 对数据集划分为训练集、测试集
    :param x: m*n维 m表示数据个数 n表示特征个数
    :param y: 标签
    :param ratio: 产生比例 train:test = 3:1(默认比例)
    :return: x_train y_train  x_test y_test
    """
    n_samples , n_train = x.shape[0] , int(x.shape[0]*(ratio)/(1+ratio))
    train_id = random.sample(range(0,n_samples),n_train)
    x_train = x[train_id,:]
    y_train = y[train_id]
    x_test = np.delete(x,train_id,axis = 0)
    y_test = np.delete(y,train_id,axis = 0)
    return x_train,y_train,x_test,y_test
测试代码
代码语言:javascript
复制
from sklearn import datasets
from Include.chapter4 import function
import numpy as np

#读取数据
digits = datasets.load_digits()
x , y = digits.data,digits.target

#划分数据集
x_train, y_train, x_test, y_test = function.train_test_split(x,y)
testId = np.random.randint(0, x_test.shape[0])
sample = x_test[testId, :]

#模板匹配
ans = function.bayeserzhi(x_train,y_train,sample)
y_test[testId]
print("预测的数字类型",ans)
print("真实的数字类型",y_test[testId])
算法结果
代码语言:javascript
复制
预测的数字类型 0
真实的数字类型 0
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/01/13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 算法流程
  • 算法实现
  • 测试代码
  • 算法结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档