首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第十二章 机器学习系统设计

有一种选择邮件特征向量的方法: 我们可以提供一个可能包含100个单词的列表,通过这些单词来区分垃圾邮件或非垃圾邮件。 ? 特征向量 仅表示这个词是否在邮件中出现过,而不表示出现的次数。...在实际工作中普遍的做法是,在训练集中,我们会挑选频率最多的 n 个单词,n 一般在 10000 到 50000 之间,然后将它作为你的特征向量。...实际上在‘垃圾邮件分类器’领域就有一个正规的项目,叫做Honey Pot项目。...这样的方法去设计我们的‘垃圾邮件分类器’系统,但是,我们无法得知那个方法是有效的 12.2 误差分析 通过‘误差分析’从众多的方法中做出选择。 ? ?...只有在我们非常确信的情况下,才会预测一个病人是否患了癌症。 这样做的一种方法,是修改算法的临界值。如,将算法的临界值从0.5修改为0.7。 避免遗漏掉患有癌症的人,即我们希望避免假阴性。

56220

准确率、精准率、召回率、F1,我们真了解这些评价指标的意义吗?

今天要讲的主要分为以下两点: 二分类模型的常见指标快速回顾 多分类模型的常见指标详细解析 在探讨这些问题前,让我们先回顾一下最常见的指标Accuracy到底有哪些不足。...如用Recall对系统进行评估,那么其回答的问题就是: 在一堆得了癌症的病人中,到底有多少人能被成功检测出癌症?...在上述例子里,False Negative是得了癌症的病人没有被诊断出癌症,这种情况是最应该避免的。我们宁可把健康人误诊为癌症 (FP),也不能让真正患病的人检测不出癌症 (FN) 而耽误治疗离世。...以垃圾邮件屏蔽系统为例,垃圾邮件为Positive,正常邮件为Negative,False Positive是把正常邮件识别为垃圾邮件,这种情况是最应该避免的(你能容忍一封重要工作邮件直接进了垃圾箱,被不知不觉删除吗...我们宁可把垃圾邮件标记为正常邮件 (FN),也不能让正常邮件直接进垃圾箱 (FP)。在这里,垃圾邮件屏蔽系统的目标是:尽可能提高Precision值,哪怕牺牲一部分recall。

4.5K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    机器学习算法中分类知识总结!

    分类问题在现实中应用非常广泛,比如垃圾邮件识别,手写数字识别,人脸识别,语音识别等。 ? 一、指定阈值 逻辑回归返回的是概率。...相反,在同一个逻辑回归模型中预测分数为 0.0003 的另一封电子邮件很可能不是垃圾邮件。可如果某封电子邮件的预测分数为 0.6 呢?...在选择阈值时,需要评估你将因犯错而承担多大的后果。例如,将非垃圾邮件误标记为垃圾邮件会非常糟糕。不过,虽然将垃圾邮件误标记为非垃圾邮件会令人不快,但应该不会让你丢掉工作。...精确率指的是被标记为垃圾邮件的电子邮件中正确分类的电子邮件所占的百分比,即图 1 中阈值线右侧的绿点所占的百分比: ?...在假负例与假正例的代价存在较大差异的情况下,尽量减少一种类型的分类错误可能至关重要。例如,在进行垃圾邮件检测时,你可能希望优先考虑尽量减少假正例(即使这会导致假负例大幅增加)。

    60610

    机器学习面试篇

    机器学习中的正负样本  在机器学习中,正样本通常指的是那些标签或者类别与模型预测的目标一致的样本,而负样本则是指标签或类别与预测目标不一致的样本。  ...正样本:在分类任务中,正样本是那些属于我们感兴趣的类别的样本。例如,如果我们正在训练一个垃圾邮件检测器,所有标记为垃圾邮件的邮件都是正样本。...在目标检测领域,正样本可能指的是包含待检测目标(如人脸)的图像区域。 负样本:负样本则是那些不属于我们感兴趣类别的样本。在上述垃圾邮件检测器的例子中,所有非垃圾邮件的邮件都是负样本。...在目标检测中,负样本可能是那些不包含待检测目标的图像区域。 如何解决过拟合问题  过拟合:模型在训练集表现好,在真实数据表现不好,即模型的泛化能⼒不够。...L2正则化:也称为Ridge回归,它通过权值向量中各个元素的平方和的平方根来定义。这种形式的正则化倾向于让所有权值都接近于零,但不会完全为零,从而避免了特征选择,而是通过减小权重的大小来防止过拟合。

    7810

    一文读懂机器学习分类算法(附图文详解)

    在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。...分类问题预测数据所属的类别; 分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。 回归问题根据先前观察到的数据预测数值; 回归的例子包括房价预测、股价预测、身高-体重预测等。...比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。...作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。...假负例 假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

    2K20

    来!一起捋一捋机器学习分类算法

    在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。...分类问题预测数据所属的类别; 分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。 回归问题根据先前观察到的数据预测数值; 回归的例子包括房价预测、股价预测、身高-体重预测等。...比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。...作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。...假负例 假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

    47520

    机器学习分类算法

    在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。...分类问题预测数据所属的类别; 分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。 回归问题根据先前观察到的数据预测数值; 回归的例子包括房价预测、股价预测、身高-体重预测等。...比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。...作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。...假负例 假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

    1.6K20

    揭示语言大模型的采样过程

    例如,如果一个模型被训练用于分类电子邮件是否为垃圾邮件,那么可能的值就只有两个:垃圾和非垃圾邮件。模型会计算每个值的概率,如垃圾邮件的概率是90%,非垃圾邮件的概率是10%。...对于垃圾邮件分类任务,可以输出具有最高概率的值,如果是垃圾邮件的概率达到了90%,那么就可以将其分类为垃圾邮件。...在我们的例子中,当温度低于0.1时,模型几乎总是输出B。模型提供者通常会将温度限制在0到2之间。如果有自己的模型,你可以使用任何非负的温度值。...为避免计算负载过大问题,在模型计算出logit之后,我们会选择排名前k的logit,并仅对这些logit执行softmax。...Top-p 在Top-k采样中,考虑的值的数量被固定为k。然而,这一数量应该视具体情况而定。例如,对于给定提示“你喜欢音乐吗?只回答是或否。”

    27210

    来!一起捋一捋机器学习分类算法

    在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。...分类问题预测数据所属的类别; 分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。 回归问题根据先前观察到的数据预测数值; 回归的例子包括房价预测、股价预测、身高-体重预测等。...比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。...作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。...假负例 假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

    44830

    收藏 | 来!一起捋一捋机器学习分类算法

    在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。...分类问题预测数据所属的类别; 分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。 回归问题根据先前观察到的数据预测数值; 回归的例子包括房价预测、股价预测、身高-体重预测等。...比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。...作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。...假负例 假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

    48220

    来!一起捋一捋机器学习分类算法

    在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。...分类问题预测数据所属的类别; 分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。 回归问题根据先前观察到的数据预测数值; 回归的例子包括房价预测、股价预测、身高-体重预测等。...比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。...作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。...假负例 假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

    44331

    分类模型的评价指标(三)

    ,不是垃圾邮件.为正样本,是垃圾邮件为负样本 我们一般使用四个符号表示预测的所有情况: TP(真阳性):正样本被正确预测为正样本,例子中的60 FP(假阳性):负样本被错误预测为正样本,例子中的10 TN...(真阴性):负样本被正确预测为负样本,例子中的25 FN(假阴性):正样本被错误预测为负样本,例子中的5 ---- 1.评价方法介绍 先看最终的计算公式: ?...例子解释:对上前面例子,关注的部分就是预测结果的70封不是垃圾邮件中真实不是垃圾邮件占该预测结果的比率,现在Precision=60/(600+10)=85.71% 3.Recall(召回率) 关注真实正样本的数据...(不包含任何负样本)中,正确预测的比例 计算公式 ?...,Recall在F-score计算中的权重,取值情况有以下三种: 如果取1,表示Precision与Recall一样重要 如果取小于1,表示Precision比Recall重要 如果取大于1,表示Recall

    88230

    机器学习中评估分类模型性能的10个重要指标

    这个用例可以是任何分类问题-垃圾邮件检测、癌症预测、损耗率预测、活动目标预测等。我们将在本文需要时参考特殊用例。目前,我们将考虑一个简单的逻辑模型,它必须预测是或否。...在这个特别的问题陈述中,我们对尽可能减少类型I错误非常敏感,因为进入垃圾邮件的重要电子邮件可能会产生严重的影响。 Type II Error ?...例如:在垃圾邮件检测案例中,正如我们前面所讨论的,假阳性将是一个观察结果,它不是垃圾邮件,但根据我们的分类模型被归类为垃圾邮件。过多的误报可能会破坏垃圾邮件分类模型的目的。...垃圾邮件检测分类器的例子,我们了解精度。继续使用那个例子,特异性告诉我们我们的模型能够准确分类多少个阴性。...在这个例子中,我们看到专一性=33%,这对于垃圾邮件检测模型来说不是一个好的分数,因为这意味着大多数非垃圾邮件被错误地归类为垃圾邮件。我们可以通过观察特异性度量得出结论,这个模型需要改进。

    1.6K10

    一文带你了解面试中的必问指标!

    5. specificity specificity指标平时见得不多,它是相对于sensitivity(recall)而言的,指的是正确预测的负样本数占真实负样本总数的比值,也就是我能从这些样本中能够正确找出多少个负样本...例如在垃圾邮件过滤中,我们希望重要的邮件永远不要被误判为垃圾邮件,还有在癌症检测中,宁愿误判也不漏判。在这种情况下,仅仅使用分类错误率来度量是不充分的,这样的度量错误掩盖了样本如何被错分的事实。...所以,在分类中,当某个类别的重要性高于其他类别时,可以使用Precison和Recall多个比分类错误率更好的新指标。...8. roc(Receiver Operating Characteristic Curve) 在实际的数据集中经常会出现类别不平衡现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间而变化...---- 大家好,我是灿视,目前在合肥某AI企业,负责算法部门的工作。

    77950

    Java分布式神经网络库Deeplearning4j 环境搭建和运行一个例子

    后续训练自己的人脸检测,NLP,OCR这个就需要大家自己去细心研究了。鄙人也会试着训练相关数据。 个人小程序有关于百度人脸检测和腾讯优图人脸检测的功能,可以扫码看看哦。...TN、FN - TP,True Positive - FP,False Positive - TN,True Negative - FN,False Negative 大概意思是 真正 假正 真负...假负 例如: 举个简单的二元分类问题 例子: 假设,我们要对某一封邮件做出一个判定,判定这封邮件是垃圾邮件、还是这封邮件不是垃圾邮件?...如果判定是垃圾邮件,那就是做出(Positive)的判定; 如果判定不是垃圾邮件,那就做出(Negative)的判定。...在我的百度云下载吧 链接: http://pan.baidu.com/s/1geNrvGn 密码: 8bkw ? 12345 ? 123

    2.2K80

    R语言︱机器学习模型评价指标+(转)模型出错的四大原因及如何纠错

    跟方差一样,均方误差是预测误差平方之和的平均数,它避免了正负误差不能相加的问题。 由于对误差进行了平方,加强了数值大的误差在指标中的作用,从而提高了这个指标的灵敏性,是一大优点。...以将电子邮件分类为垃圾邮件(正类别 positive class)和非垃圾邮件(负类别 negative class)为例。99% 的情况下, 你收到的邮件都并非垃圾邮件,但可能有1% 是垃圾邮件。...假设我们训练一个机器学习模型,让它学着总把邮件预测为非垃圾邮件(负类别), 那这个模型 99% 的情况下是准确的,只是从未捕获过正类别。...精准率是测量正类别多常为真, 可以通过计算“真正(true positive, 例如预测为垃圾邮件且真的为垃圾邮件)”与“真负(true negative, 例如预测为垃圾邮件但事实并非如此)”总和中“...召回率则用来测量实际上的正类别多常被准确预测, 以计算真正与假负(false negative, 例如预测邮件为非垃圾邮件,但事实上邮件是垃圾邮件)的总和里有多少个真正而得出。

    1.8K40

    21个经典数据科学面试题及答案(上)

    《检测伪数据科学家的20个问题》在1月获得了最多的阅读量。但作者并没有提供这些问题的答案,所以KDnuggets的编辑们聚在一起解答了这些问题。我也额外增加了一个通常容易被忽略的问题。...Demis Hassabis 在DeepMind的突出贡献,使机器在玩Atari游戏以及最近进行的围棋比赛中达到了人类或超人类的水平。 来自DataKind的Jake Porway和U....TN / True Negative:实例是负的,预测也是负的 TP / True Positive:实例是正的,预测也是正的 FN / False Negative:实例是正的,但是预测是负的 FP...【Gregory Piatetsky解答】 经典的统计参数检测把实测统计量当作理论抽样分布。而重采样是数据驱动的,而不是理论驱动的方法,后者是在同一个样本中反复采样的技术。...在垃圾邮件过滤时,假阳性意味着会错误地将正常邮件当成了垃圾邮件,从而干扰邮件的传送。尽管大多数的反垃圾邮件策略能够拦截或过滤大部分的垃圾邮件,但减少假阳性带来的误伤也非常重要。

    1.8K41

    为什么网站底部邮箱@用#代替?

    网站底部邮箱中的“@”用“#”代替主要是出于安全和隐私保护的考虑。 网络上存在许多爬虫,它们会自动采集网络上的邮箱地址,用于发送垃圾邮件或进行其他形式的广告推广。...这些爬虫通常使用正则表达式来过滤和收集邮箱地址,其中就包含“@”符号作为识别条件。 因此,为了避免邮箱地址被这些爬虫轻易抓取,许多网站选择将“@”替换为“#”。...这样一来,爬虫收集到的邮箱地址就会变为无效地址,从而有效阻止垃圾邮件的发送。 此外,这也体现了网站对用户隐私的尊重和保护。通过采取这种简单的替换措施,网站能够为用户提供更加安全和舒适的在线体验。...综上所述,网站底部邮箱中的“@”用“#”代替是为了防止邮箱地址被恶意爬虫抓取,保护用户隐私和免受垃圾邮件的侵扰。

    12110

    人工智能领域 700 多个专业术语-谷歌开发者机器学习词汇表

    激活函数(Activation function) 一种函数(例如 ReLU 或 Sigmoid),将前一层所有神经元激活值的加权和输入到一个非线性函数中,然后向下一层传递该函数的输出值(典型的非线性...例如,一个评估邮件信息并输出「垃圾邮件」或「非垃圾邮件」的机器学习模型就是一个二元分类器。...例如,在一个检测垃圾邮件的二元分类模型中,这两个类别分别是垃圾邮件和非垃圾邮件。而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。...例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为非垃圾邮件。...上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为非肿瘤(1 个假负类)。

    1.2K80

    开发者必看:超全机器学习术语词汇表!

    例如,在一个检测垃圾邮件的二元分类模型中,这两个类别分别是垃圾邮件和非垃圾邮件。而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。...F 假负类(false negative,FN) 被模型错误的预测为负类的样本。例如,模型推断一封邮件为非垃圾邮件(负类),但实际上这封邮件是垃圾邮件。...在垃圾邮件检测数据集中,特征可能包括主题、发出者何邮件本身,而标签可能是「垃圾邮件」或「非垃圾邮件」。 标注样本(labeled example) 包含特征和标签的样本。...例如,医疗测试中的负类可能是「非肿瘤」,电子邮件分类器中的负类可能是「非垃圾邮件」。...真负类(true negative,TN) 被模型正确地预测为负类的样本。例如,模型推断某封电子邮件不是垃圾邮件,然后该电邮真的不是垃圾邮件。

    4K61
    领券