三种划分边界的算法之二:Naive Bayes
贝叶斯分析是现代统计学的基础。它最广为人知的例子可能要算癌症检测。假设有一种癌症在人群中的发病率大概是1%,现在有一种检测手段,它的准确率是90%,也就是说,如果某人的确患有癌症,检测结果为阳性的概率为90%而且如果某人确实没有患癌症,检测结果为阴性的概率也为90%。现在假设有人做了一次检测而且结果为阳性,请问他患癌症的概率是多大。
这个算起来是这样的:
假设患癌症的事件用
P(CPos) = P(PosIC) P(C) = 90% × 1% = 0.9%
P(非CPos) = P(PosI非C) P(非C) = 10% × 99% = 9.9%
归一化:
P(CPos) = 0.9/(0.9+9.9)= 8.3%
这就是答案。
这种统计方法在人工智能上的应用最直接的实例是统计垃圾邮件。
假设通过数据统计得到了常用邮件的一个词库和一个垃圾邮件的词库,每个词库中对应词的概率都已经知道,那么给出一个任意邮件,分析它其中的词语,就可以得到它是垃圾邮件以及是正常邮件的概率。
这个方法由于没有考虑词语的顺序(比如说两封邮件,一封是I have three apples 另一封是three apples have I,显然第二封更可能是垃圾邮件,但NB给出的结果是一样的)因此被称为Naive。即朴素贝叶斯。
至于它如何运用于划分边界,需要引入另一个方法GaussianNB。下次记录。