专栏首页腾讯大数据的专栏揭开大数据测试的神秘面纱

揭开大数据测试的神秘面纱

一、前言

在大数据时代,数据挖掘,人工智能,机器学习这一系列高大上的技术应运而生,针对这一系列高大上的系统,测试同学如何参与其中,做好质量把控呢?与我们熟悉的测试套路又有何不同呢?欲知详情,请听笔者细细道来。

二、背景知识介绍

模式识别:是目的,就是通过计算机用数学技术方法来研究模式的自动处理和判读。

机器学习:是一种方法,是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

数据挖掘:是一种方法,从大量数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

人工智能:是指由人工制造出来的系统所表现出来的智能。

附上一张网上转载的图,介绍它们之间的关系。

为了验证机器学习形成的模型是否能正确进行模式识别,数据挖掘分析的结果是否符合预期,测试同学需要设计一套完整的测试方案,在系统上线前能够告诉项目团队,这个系统符合上线的质量标准,可以放心发布。

三、机器学习模型的认识

机器学习模型进行测试的前提是需要对机器学习有一定的认知,简单来说就是我们要了解被测对象。机器学习的过程,也是一个归纳总结的过程,总结过往的经验,来指导新的任务。机器学习的应用就是大数据。

机器学习的分类

机器学习可分为监督学习,无监督学习和半监督学习

监督学习的分类

常见使用的是监督学习,监督学习包括回归分析和统计分类

回归分析:是一种统计学上分析数据的方法,目的在于了解两个或多个变数间是否相关、相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。

统计分类是指识别出样本所属的类别,包括二分类和多分类。

根据输入变量、输出变量的不同类型,对预测任务给予不同的名称:输入变量和输出变量均为连续的预测问题称为回归问题;输出变量为有限个离散值得预测问题称为分类问题。

机器学习模型评价

机器学习模型评价,简单来说就是对数据进行训练形成机器学习模型后,需要一些合适的指标来对模型就行评价,从而帮助选择一个较好的模型。

机器学习过程分为两个阶段:原型设计阶段和应用阶段,不同阶段使用的评价指标往往不同,并且同一个阶段,对于不同的学习任务,评价指标也不相同。

原型设计阶段一般会使用准确率,对数损失函数,精确率-召回率,RMSE等。应用阶段一般会使用点击率,留存率,活跃度等模型最终使用者关心的指标。

四、机器学习测试过程

测试样本准备

测试样本包括训练样本,验证样本和测试样本

训练样本:用来作为机器学习训练模型的数据集

验证样本:当模型训练完后,需要使用一个与训练数据集独立的新的数据集去对模型进行验证。

测试样本:当模型最终训练完成后,测试同学用来验证模型的样本,检验模型的泛化能力。

在原型设计阶段中,需要进行模型选择,即需要对多个候选模型在一个或多个验证集上进行性能评价。当在模型训练与验证确定了合适的模型类型以及最优的超参数后,需要使用全部可利用的数据对模型进行训练,训练出的模型便是最终的模型,即上线使用的模型。

模型测试则发生在模型的原型设计之后,即包含在上线阶段又包含在离线监测(监测分布漂移)阶段。

注意不要将训练数据、验证数据与测试数据相混淆。模型的训练、验证与测试应该使用不同的数据集,如果验证数据集、测试数据集与训练数据集有重叠部分,那么会导致模型的泛化能力差。

系统上线后,又会产生新的数据集,这部分新的数据集进行的验证就称为在线验证,在线验证也是验证模型的泛化能力。

下图是笔者最近测的××系统的样本组成

测试指标制定

根据学习任务的特点选择合适的评价指标,比如:回归分析和统计分类选用的测试指标不同

1、分类评价指标

二分类和多分类(二分类只有两种类别,可以称为负与正两种类别,多分类则指类别数超过两种)

评价指标:准确率(Accuracy),对数损失函数(Log-loss),精确率-召回率(Precision-Recall)

准确率=分类正确的个数/总的样本个数

平均准确率=(分类1准确率+分类2准确率+…+分类n准确率)/N(应对样本不一样个数)

对数损失函数在分类输出中,若输出不再是0-1,而是实数值,即属于每个类别的概率

精确率-召回率其实是两个评价指标。但是它们一般都是同时使用。精确率是指分类器分类正确的正样本的个数占该分类器所有分类为正样本个数的比例。召回率是指分类器分类正确的正样本个数占所有的正样本个数的比例。

真正(True Positive, TP):被模型分类正确的正样本; 假负(False Negative, FN):被模型分类错误的正样本; 假正(False Positive, FP):被模型分类错误的负样本; 真负(True Negative, TN):被模型分类正确的负样本;

F1-score为精确率与召回率的调和平均值,它的值更接近于Precision与Recall中较小的值。即:

2、回归评价指标

回归模型中最常用的评价模型便是RMSE(root mean square error,平方根误差),其又被称为RMSD(root mean square deviation),其定义如下:

是第i个样本的真实值,是第i个样本的预测值,n是样本的个数

机器学习测试总结

机器学习接收的是输入数据,对数据进行归纳学习形成模型,并预测未来的结果,根据前面对机器学习测试的探索和笔者做过的几次实践,归纳形成一套机器学习领域的测试方法总结,以此作为后面大数据相关测试的参考。另外涉及到大数据相关的测试,统计学和数据分析的基本技能也是需要掌握的,可以自行学习相关的入门书籍。

本文分享自微信公众号 - 腾讯大数据(tencentbigdata),作者:终点站

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习 刀光剑影 之屠龙刀

    机器学习是一个大武林,这里面江湖人士颇多,“发明”出来的算法兵器也是五花八门,浩瀚如海,足够你数上三天两夜了。然而,这些兵器行走江湖能用的不多,真正无敌的更是屈...

    腾讯大数据
  • 强化学习在智能对话上的应用

    TEG数据平台部联合AiLab、Ai平台部,结合语音合成、语音识别、机器人问答、大数据能力等前沿性、高复用性的功能模块构建腾讯小知智能机器人产品,支持问答、业务...

    腾讯大数据
  • 解密最接近人脑的智能学习机器 ——深度学习及并行化实现

    训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为代表的一系列方法的提出给训练深层模型带来了希望,并在多个应用领域获得了成功。深层模型的并行化框架和训...

    腾讯大数据
  • 集成学习概述

    集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成...

    机器学习理论与数据竞赛实战
  • 聚焦测试,驱动卓越 | 洞见

    在经历了“七年之痒”后,蓝鲸项目进入第八个年头,项目的一切趋于稳定。团队倡导持续改进,这时大家的感觉是已经尽力做到最好,似乎没有什么可以改进的了。为了突破这个局...

    ThoughtWorks
  • 还怕Github被墙?项目团队开发必备技能!

    最近在做一个大项目,代码量非常大,需要一个代码库存放,而现有的Github、GitLab不适合存放私密的代码,于是自建代码服务器,存放代码,于是今天这篇文章应任...

    公众号guangcity
  • 更偏好白人男性?Science新研究证明人工智能也能学会偏见

    选自Science 机器之心编译 参与:吴攀、晏奇 至少从口号上来说,我们一直在追求「人人平等」,但我们也都清楚我们离这一目标还相去甚远,部分原因是因为世界并不...

    机器之心
  • 软件测试修炼之道

      初学者面对铺天盖地的资料应该如何选取?应该从哪里入手?如何迅速的掌握各种业务各项测试技能以便开展工作?在保证测试质量的前提下,一日内编写或执行1000个测试...

    张树臣
  • 学界 | 新的网络优化方法:随机权值平均

    AI 科技评论按:在本文中,数据科学研究人员 Max Pechyonkin 讨论了最近两篇有趣的论文,它们提供了一种简单的方法,通过用一种巧妙的集成方式来提高任...

    AI科技评论
  • 寻找完美平台App测试方案

    移动应用App的测试,往往是非常繁琐、而又重复性的工作,很多开发者在测试工作过程中浪费了大量的时间和精力,而且还得不到满意的结果。大的公司一般都会配备专业的测试...

    BestSDK

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动