展开

关键词

python网络与自定义损失函数

网络 source coding # -*- coding:utf-8 -*- # /usr/bin/python ''' @Author: Yan Errol @Email:2681506@ gmail.com @Date: 2019-06-03 16:17 @File:Bayesian neural newwork @Describe:神经网络 @Evn: ''' import

23720

Python-实战垃圾邮件过滤(大量数据)

Github: https://github.com/yingzk/MyML 博 客: https://www.yingjoy.cn/ 环境 Python 3.6.2 jieba 0.39 数据 8000 return wordProbList def calBayes(self, wordList, spamDict, normalDict): """ 计算概率

875110
  • 广告
    关闭

    腾讯云618采购季来袭!

    一键领取预热专享618元代金券,2核2G云服务器爆品秒杀低至18元!云产品首单低0.8折起,企业用户购买域名1元起…

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python-实战垃圾邮件过滤(大量数据)

    Github: https://github.com/yingzk/MyML 博 客: https://www.yingjoy.cn/ 环境 Python 3.6.2 jieba 0.39 数据 8000 return wordProbList def calBayes(self, wordList, spamDict, normalDict): """ 计算概率

    1.1K60

    Python回归分析住房负担能力数据集

    p=11664  我想研究如何使用pymc3在框架内进行线性回归。根据从数据中学到的知识进行推断。   规则是什么?    因此,统计被放弃了很多年。从某种意义上讲,它自然而然地脱离了概率论。如果我们只有擅长计算大量数字的东西,那么这类问题就可以解决。 计算机确实非常快地进行计算。 实际上,我写这篇文章的时候,我那笨拙的旧笔记本电脑可以进行一些不错的统计,例如我们将要进行的回归。 代码 这是进行回归所需的知识。 因此,我们假设: 与先验: 因此,如果我们拥有X和Y的数据,则可以进行线性回归。   代码   因此,我们要使用的数据集是《  美国住房调查: 2013年住房负担能力数据 》数据集。  特别是,我们想知道斜率系数是否为负,并且由于我们处于框架中,因此该概率为负的概率是多少? 因此,让我们从一些先决条件开始,我们将导入所需的库和数据。我们还将进行一些数据清理。

    21500

    Python回归分析住房负担能力数据集

    我想研究如何使用pymc3在框架内进行线性回归。根据从数据中学到的知识进行推断。 规则是什么? 本质上,我们必须将已经知道的知识与世界上的事实相结合。 这里有一个例子。 因此,统计被放弃了很多年。从某种意义上讲,它自然而然地脱离了概率论。如果我们只有擅长计算大量数字的东西,那么这类问题就可以解决。 计算机确实非常快地进行计算回归。 代码 这是进行回归所需的知识。通常,我们想到这样的回归: ? e是正态分布的误差。 因此,我们假设: ? 与先验: ? 因此,如果我们拥有X和Y的数据,则可以进行线性回归。 特别是,我们想知道斜率系数是否为负,并且由于我们处于框架中,因此该概率为负的概率是多少? 因此,我们将导入所需的库和数据。进行一些数据清理。

    14610

    Python回归分析住房负担能力数据集

    p=11664  我想研究如何使用pymc3在框架内进行线性回归。根据从数据中学到的知识进行推断。   规则是什么?    因此,统计被放弃了很多年。从某种意义上讲,它自然而然地脱离了概率论。如果我们只有擅长计算大量数字的东西,那么这类问题就可以解决。 计算机确实非常快地进行计算。 实际上,我写这篇文章的时候,我那笨拙的旧笔记本电脑可以进行一些不错的统计,例如我们将要进行的回归。 代码 这是进行回归所需的知识。 因此,我们假设: 与先验: 因此,如果我们拥有X和Y的数据,则可以进行线性回归。   代码   因此,我们要使用的数据集是《  美国住房调查: 2013年住房负担能力数据 》数据集。  特别是,我们想知道斜率系数是否为负,并且由于我们处于框架中,因此该概率为负的概率是多少? 因此,让我们从一些先决条件开始,我们将导入所需的库和数据。我们还将进行一些数据清理。

    16110

    Python推断Metropolis-Hastings(M-H)MCMC采样算法的实现

    ---- 本文摘选《Python推断Metropolis-Hastings(M-H)MCMC采样算法的实现》

    7710

    python随机过程:马尔可夫链Markov-Chain,MC和Metropolis-Hastings,MH采样算法可视化

    p=25428 介绍 本文,我们说明了学习和 计算统计一些结果。 from math import pi from pylab import * 马尔可夫链的不变测度 考虑一个高 AR(1) 过程, , 其中 是标准高随机变量的独立同分布序列,独立于 下面是python代码。 anm = animation.FuncAnimation 这个例子结束是一个动画。 = v if ((i+1)%r==0): data.append x=linspac anim = animation.FuncAn ---- 本文摘选《python 随机过程:马尔可夫链Markov-Chain,MC和Metropolis-Hastings,MH采样算法可视化》

    7610

    python朴素实现-2

    多项式模型的python实现 朴素 (naive Bayes) 法是基于定理与特征条件独立假设的分类方法。 分类是一类分类算法的总称,这类算法均以定理为基础,故统称为分类。而朴素朴素分类是分类中最简单,也是常见的一种分类方法。 理解朴素 (naive Bayes)主要分为两个部分: 1. 定理 2. 特征条件独立 定理上篇blog已经做了回顾,本文首先,说明特征条件独立的意义 ---- 1. 朴素为何需要特征条件独立 ? ? 朴素法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素法也由此得名。具体地,条件独立性假设是: ? 朴素法对条件概率分布做了条件独立性的假设,由于这是一个较强的假设,朴素也由此得名!这一假设使得朴素法变得简单,但有时会牺牲一定的分类准确率。 2.

    66820

    使用python进行统计分析

    p=7637 本文讲解了使用PyMC3进行基本的统计分析过程. # 导入 import pymc3 as pm # python的概率编程包 import numpy.random as npr # numpy是用来做科学计算的 import matplotlib.pyplot as plt # matplotlib是用来画图的 import matplotlib as mpl 公式 常见的统计分析问题 参数估计: "真实值是否等于X" 比较两组实验数据: "实验组是否与对照组不同

    44110

    python实现朴素

    什么是朴素? 朴素是jiyu定理和特征条件独立假设的分类方法。 即对于给定训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布,然后基于此模型,对于给定的输入x,利用定理求出后验概率最大的输出y。 什么是法则? ? 如何由联合概率模型得到朴素 模型? ? 朴素参数估计:极大似然估计 ? 朴素算法描述: ? 具体例子: ? ? 极大似然估计存在的问题? ? 使用估计求解上述问题? ? 朴素优缺点? 优点:     (1)朴素模型发源于古典数学理论,有稳定的分类效率。      而在属性相关性较小时,朴素性能最为良好。对于这一点,有半朴素之类的算法通过考虑部分关联性适度改进。

    49820

    python朴素实现-1( 定理,全概率公式 )

    https://blog.csdn.net/haluoluo211/article/details/78706080 朴素 (naive Bayes) 法是基于定理与特征条件独立假设的分类方法 在研究朴素 之前,先回顾下:概率论中的条件概率以及定理。 本部分内容基本来源于 盛骤, 谢式千, 潘承毅《概率论与数理统计 第四版浙江大学》 ---- 1. 全概率公式与定理 ? ? ? 下面在给出个示例: ? ? 另外一个示例 ? 以上内容基本来源于教材,完成上面的示例,以及习题之后更能够加深对朴素定理的理解。

    42120

    朴素python代码实现(西瓜书)

    朴素python代码实现(西瓜书) 摘要: 朴素也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便。 朴素 公式: ? 朴素之所以称这为朴素,是因为假设了各个特征是相互独立的,因此假定下公式成立: ? 则朴素算法的计算公式如下: ? P(Ci) 和P(Xi|Ci) 一般不直接使用样本的频率计算出来,一般会使用拉普拉平滑。 ? 上面公式中,Dc为该类别的频数,N表示所有类别的可能数。 ? 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 否 浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 否 乌黑 稍蜷 浊响 清晰 稍凹 软粘 否 浅白 蜷缩 浊响 模糊 平坦 硬滑 否 青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 否 python 否 10 否 否 11 否 否 12 是 否 13 否 否 14 是 否 15 否 否 16 否 否 正确率:82.352941% 总结: 分类器是一种生成式模型

    74120

    从零开始学Python【37】--朴素模型(理论部分)

    公式】 在具备上述的基础知识之后,再来看看公式。如前文所说,分类器的核心就是在已知X的情况下,计算样本属于某个类别的概率,故这个条件概率的计算可以表示为: ? 其中, ? 根据这条假设,可以得到一般性的结论,即自变量之间的独立性越强,分类器的效果就会越好;如果自变量之间存在相关性,就会在一定程度提高分类器的错误率,但通常情况下,分类器的效果不会低于决策树 通常会根据不同的数据类型选择不同的分类器,例如高分类器、多项式分类器和伯努利分类器。 【高分类器】 如果数据集中的自变量X均为连续的数值型,则在计算 ? 【多项式分类器】 如果数据集中的自变量X均为离散型变量,就无法使用高分类器,而应该选择多项式分类器。在计算概率值 ? 时,会假设自变量X的条件概率满足多项式分布,故概率值 ? 有关算法的原理就介绍到这里,除此,如何借助于简单的案例解释原理背后的道理,可以在我的新书《从零开始学Python数据分析与挖掘》中得到详细的答案。

    25130

    从零开始学Python【38】--朴素模型(实战部分)

    【前言】 在《从零开始学Python【37】--朴素模型(理论部分)》中我们详细介绍了朴素算法的基本概念和理论知识,在这一期我们继续介绍该算法的实战案例。 将会对高、多项式和伯努利三种分类器案例的做实战讲解。希望通过这部分内容的讲解,能够使读者对算法有一个较深的理解(文末有数据和源代码的下载链接)。 【高分类器】 面部皮肤区分数据集来自于UCI网站,该数据集含有两个部分,一部分为人类面部皮肤数据,该部分数据是由不同种族、年龄和性别人群的图片转换而成的;另一部分为非人类面部皮肤数据。 最后需要强调的是,利用高分类器对数据集进行分类时要求输入的数据集X为连续的数值型变量。 通常情况下,会利用多项式分类器作文本分类,如一份邮件是否垃圾邮件、用户评论是否为正面等。

    1.2K40

    Python用PyMC3实现线性回归模型

    p=5263 在本文中,我们将在框架中引入回归建模,并使用PyMC3 MCMC库进行推理。 ? 我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论如何考虑线性回归。 用PyMC3进行线性回归 在本节中,我们将对统计实例进行一种历史悠久的方法,即模拟一些我们知道的属性的数据,然后拟合一个模型来恢复这些原始属性。 什么是广义线性模型? 在我们开始讨论线性回归之前,我想简要地概述广义线性模型(GLM)的概念,因为我们将使用它们来在PyMC3中制定我们的模型。 用PyMC3模拟数据并拟合模型 在我们使用PyMC3来指定和采样模型之前,我们需要模拟一些噪声线性数据。 使用PyMC3将GLM线性回归模型拟合到模拟数据 我们可以使用glm库调用的方法绘制这些线plot_posterior_predictive。

    50210

    python实现朴素分类器(连续数据)

    参考链接: Python朴素分类器 有用请点赞,没用请差评。  欢迎分享本文,转载请保留出处。  一、算法  算法原理参考周志华老师的《机器学习》p151和李航老师的《统计学习方法》。    数据内容截图:   数据说明:   源码:  # -*- coding:utf-8 -*- # naive Bayes  朴素法(连续数据) """ 算法参考周志华老师的《机器学习》 实现了对连续数据的分类器 exponent     # 计算待分类数据的联合概率     def calClassProbabilities(self, inputVector):         # summaries为训练好的模型参数 classSummaries)表示有多少特征维度             for i in range(len(classSummaries)):                 # mean, stdev分别表示每维特征对应的均值和方差

    30900

    python实现朴素模型:文本分类+垃圾邮件分类

    本文主要致力于总结实战中程序代码的实现(python)及朴素模型原理的总结。python的numpy包简化了很多计算,另外本人推荐使用pandas做数据统计。 这个原理就是朴素原理,因为篮球运动员大多身高很高,所以这个人具有篮球运动员的条件,则猜测他是篮球运动员。   同理,另一个升高1.58的人,你应该不会猜他是篮球运动员。 二 理论   条件公式:p(Ci | x,y)=p(x,y | Ci)*p(Ci) / p(x,y)   计算每个类别的概率,若p(C1 | x,y) > p(~C1 | x,y), 则类别属于类 注:条件是保证条件之间独立的(文档分类中是假设一个词汇出现与其他词汇是否出现无关,然而同一主题的词汇一起出现的概率很高,存在关联),所以这个假设过于简单;尽管如此,然而事实表明,朴素的效果还很好 五 小结   上面我处理的样本的属性值都是分类型的,然而数值型的朴素能处理吗?   1 朴素处理数值型数据的方法:   (1) 区间离散化,设阈值,分段。

    1.9K71

    手把手 | Python代码和理论告诉你,谁是最好的棒球选手

    在数据科学或统计学领域的众多话题当中,我觉得既有趣但又难理解的一个就是分析。在一个课程中,我有机会学习了统计分析,但我还需要对它做一些回顾和强化。 从个人观点出发,我就是想更好地理解理论,以及如何将它应用于现实生活中。 本文主要是受到了RasmusBååth在Youtube上的系列节目“数据分析入门”的启发。 RasmusBååth的视频链接: https://www.youtube.com/user/rasmusab/feed 本文将通过理论来分析棒球选手的命中率,手把手教你如何利用理论进行分析 稍后我们会看到其他类型的分布在分析中的运用。 统计中的可信区间和频率统计的置信区间的主要区别是二者的释义不同。概率反映了人的主观信念。根据这种理论,我们可以认为真实参数处于可信区间内的概率是可测量的。

    33540

    相关产品

    • 云服务器

      云服务器

      云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。 腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券