文中核心内容源于对刘顺祥先生所著《从零开始学python数据分析与挖掘》学习的总结和笔者本人对相关内容查询补充。

一.学习准备1：条件概率公式与全概率公式

首先是条件概率公式：

该公式适用于计算事件A已经发生的情况下事件B发生的概率，P（AB）表示事件A与事件B同时发生的概率，其满足概率乘法公式：

对于事件A，我们假设存在并行的具有n种可能的完备事件组：

结合条件概率公式和概率乘法公式，我们可以得到事件A的全概率公式：

二.学习准备2：变量的分类

统计学上将主要变量分为四种，见下表：

分类	名称	特点
定量变量	连续变量	在一定区间内可以任意取值
定量变量	离散变量	用自然数或整数单位计算，其数值是间断的，相邻两个数值之间不再有其他数值
定性变量	有序分类变量	描述数据的等级或顺序，可以进而比较优劣，变量值可以是数值或字符
定性变量	无序分类变量	取值之间没有顺序差别，仅做分类

补充两点说明

注1：无序分类变量可分为二分类变量和多分类变量。二分类变量指将全部数据分成两个类别。多分类变量指两个以上类别。

注2：有序分类变量和无需分类变量的区别是：前者对于“比较”操作是有意义的，而后者对于“比较”操作是没有意义的

首先是贝叶斯概率公式：

Ci表示研究对象的一种可能，而对于研究对象具体归为哪一类，就是计算Ci的最大可能结果。

所以贝叶斯模型的核心思想就是计算研究对象在各分类的最大概率。因为在研究对象确定了的情况下，贝叶斯概率公式中的分母就成为了一个定值，所以实际上，我们正真需要考虑的是对各类别计算出来的分子大小进行比较。即计算：

因为训练集数据的存在，所以实际上分子中的P（Ci）是已知的，它是以各自在训练集数据中频率作为先验概率。而其中的P（X|Ci），我们可以将联合概率转变为条件概率乘积：

使用范围：数据集中自变量X均为连续变量

实际上，高斯贝叶斯模型的使用前提应该还包含了自变量满足高斯正态分布这一前提，笔者将会在以后整理正态分布相关部分时专门给高斯正态分布的证明，同时，笔者并未对数据不符合高斯正态分布情况下贝叶斯模型是否准确进行过验证，这里不做分析。

我们建立在自变量符合上述两项前提的基础上，进行分析。

由第三部分内容，我们可知，问题的关键在于对P(X|Ci)的计算：

也就是：

的计算，这里我们给出在高斯贝叶斯模型条件下条件概率的计算公式：

使用范围：数据集中自变量X均为离散变量

仅给出条件概率计算公式：

xjk表示自变量的具体取值，Nik表示因变量为Ci时自变量取xjk的样本个数，Ni表示数据集中类别Ci的样本个数，n表示因变量类别个数。

使用范围：数据集中自变量X均为二分类变量：

仅给出条件概率计算公式：

p表示类别为Ci时自变量取1的概率。

文章知识点与官方知识档案匹配，可进一步学习相关知识算法技能树首页概览35122 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！