专栏首页测试开发架构之路大数据项目测试<二>项目的测试工作

大数据项目测试<二>项目的测试工作

大数据的测试工作:

1、模块的单独测试

2、模块间的联调测试

3、系统的性能测试:内存泄露、磁盘占用、计算效率

4、数据验证(核心)

下面对各个模块的测试工作进行单独讲解。

0. 功能测试

1. 性能测试

2. 自动化测试

3. 文档评审

4. 脚本开发

一、后台数据处理端

 后端的测试重点,主要集中在数据的采集处理、标签计算效率、异常数据排查(功能),测试脚本编写(HiveQL)、自动化脚本编写(造数据、数据字段检查等)

  1.数据的采集处理(Extract-Transform-Load)

    ETL:即将数据从源系统加载到数据仓库的过程。源系统包括:数据文件(excel、log等)、RDD数据库、非RDD数据库等;

    extract:从源系统提取需求数据。

    transform:清洗数据(数据格式转化、异常数据处理等)。

    Load:将清洗的数据加载至数据仓库。

    ETL测试:即确保根据需求将源系统的数据经过处理后加载到目标的数据是准确的。即源和目的数据之间转化过程中的数据验证。

    测试类型

    测试场景

    券商等金融机构,其用户每天都会产生大量的交易数据,这部分数据最初都会存储在客户的关系型数据库中(oracle),因此后台每天需要先进行数据采集,将数据采集至Hadoop的hdfs系统;数据采集过后,需要对源数据进行一次数据清洗工作:过滤异常数据(NULL)、筛掉关联性较高的数据。

  2.标签计算效率

    根据标签文档编写hiveSQL、MR等标签计算代码,针对hiveSQL,不同的开发人员编写的sql质量不同,执行的效率也不相同;此部分不仅需要开发人员具备基本的复杂sql编写功底,也需要开发人员掌握一定的sql性能调优能力;在数据,服务器配置一定的情况下,效率的提升来源于对sql的优化;

    由于hivesql的计算(都会转化成一个MR),需要大量的读写数据到磁盘的操作,因此计算效率较低;

    impala则是将数据push到内存中,然后从内存中读取数据,效率有大幅提升,但是耗费了较高的服务器内存,成本较高;

    Spark :内存计算引擎,提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的IO开销;

  3.异常数据排查

    异常值:分为两类:null,计算错误的值。 (1)Null值(标签下的数据均为NULL),首先 需求排查是否是数据的影响(例如 依赖数据缺失)。其次排查依赖数据的因素后,就需要排查是否是hiveSQL编写的问题和MR代码问题。(2)标签计算错误: 通过手工根据标签公式计算标签的值和通过hive计算得出的值进行对比,如果不一致,则需要排查是否是hivesql没有对标签公式进行精确实现。计算错误的值可以分为两类:1.明显错误(可以通过sql筛选出来的异常值,针对存在阈值的标签,比如股票仓位:仓位不得>1,如果出现>1的数据,则可以断定此标签计算有问题);2.非明显错误(此部分无法筛选出来,必须通过计算才能验证)

    由于此部分计算好的数据需要导入到中台进行进一步运用,所以此部分的数据准确性有至关重要的作用。(测试人员需要对业务十分了解)

二、中台管理端

  中台产品一般以web服务呈现。测试内容除了与普通的Java web项目相同,还要测试后台数据Export中台的过程中,数据类型、准确性、完整性、性能进行测试。

    就目前的项目而言:测试计划的内容包括:需求文档测试、后台导出表的测试(表字段类型、数据完整性、浮点型数据精度、导出性能等)、中台接口测试(自动化)、前端UI页面测试、性能测试、安全测试、兼容性测试。

    需求文档:需求点梳理、整理测试点、编写测试用例

    数据连表导出:后台数据和中台数据的类型、精度要保持一致(中台数据库为MySQL,数据类型可能和后台的数据类型定义不一致,要确保数据类型转化的正确性);

    中台接口测试:此部分可以进行接口自动化测试。

    UI页面测试:根据需求文档、UI设计图编写测试用例

    性能测试:中台接口的压测、中台服务缓存数据占服务器的内存空间测试

    安全测试:根据公司安全测试手册进行测试(安全漏洞扫描)

    兼容性测试:IE10

三、前端应用端

    主要是app端的测试工作:一般的app测试工作,数据的核对(类型、精度等)

四、结尾

 可以看出来,整个项目始终包含数据的验证工作。

附录:

异常值检查: https://www.cnblogs.com/xiaohuahua108/p/6237906.html

spark  优势:  https://www.zhihu.com/question/31930662

接口测试: https://www.cnblogs.com/iloverain/p/9429116.html

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:http://www.cnblogs.com/iloverain复制
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 1分钟链圈 | 潘石屹吐槽!区块链、比特币这些东西怎么越看越不明白

    这里是 8 月 21 日的每日1句话新闻晚报,只需1分钟,看看全球最热、最新的区块链新闻。

    区块链大本营
  • 资源 | 吴恩达推荐:斯坦福放出最大放射影像数据集,在4万张X光片上完成ML挑战赛

    大数据文摘
  • CNCC 2018 | 科技展盛况空前,近 100 家企业汇聚一堂

    AI 科技评论按:作为我国计算领域规模最大、规格最高的学术、技术、产业交融互动的盛会,CNCC(中国计算机大会)如今已走到了第 15 个年头。今年,以"大数据推...

    AI科技评论
  • 脚踏实地,自强不息——清华大学大数据软件团队2021年度先进个人风采展示

    清华大学大数据软件团队为充分调动员工积极性和创造性,提升团队综合水平和综合竞争力,组织开展了2021年度“优秀员工”评选工作,团队从组织管理能力、工作完成效力、...

    数据派THU
  • Python开发者年度调研:一半Python用户也用JS,2/3选择Linux系统

    作为高级编程语言,Python的受欢迎程度近几年一直在往上涨。每年,Python官方都会针对开发者社区做一次年度报告,统计当年的发展情况,并发布调研报告。

    大数据文摘
  • Python开发者年度调研:一半Python用户也用JS,2/3选择Linux系统

    作为高级编程语言,Python的受欢迎程度近几年一直在往上涨。每年,Python官方都会针对开发者社区做一次年度报告,统计当年的发展情况,并发布调研报告。

    CDA数据分析师
  • 科学家研发能学习论文的人工智能技术

    据美国亚利桑那大学新闻网报道,该校一个研究团队正在采用人工智能算法学习成千上万篇研究论文,以获得改善治疗癌症患者的方法。 如何使每年发表的新科学数据(包括一百万...

    人工智能快报
  • 《智慧座舱安全体验白皮书》发布,要点都在这里

    软件绿色联盟泛终端发展策略首个先行工作组-“智慧座舱创新工作组”发布首个白皮书,汇集学界、标准测试组织、头部应用、智能硬件厂家实践,全面剖析智慧座舱发展并作出定...

    软件绿色联盟
  • 机器人流程自动化评估体系全面助力垂直行业智能化转型

    2022年初,国务院印发了《“十四五”数字经济发展规划》。规划提出,到2025年我国数字经济迈向全面扩展期,数字经济核心产业增加值占GDP比重达到10%。随着全...

    王吉伟频道
  • 苹果造车计划8年难产,2025推出「iCar」恐成泡影

    ---- 新智元报道   编辑:David Joey 【新智元导读】苹果造车,八年难产,到底为啥呢? 自动驾驶行业可谓是「香饽饽」,各行各业都要来分一杯羹...

    新智元
  • 软考分类精讲-软件工程

    cwl_java
  • 德国将利用深度学习推动新能源变革

    德国大地上成排高高耸立的风力发电机和成批闪闪发光的太阳能电池板是该国转向无核、低碳能源的醒目标志。尽管德国是利用可再生能源的世界典范,其电网尚不能妥善应对阴晴不...

    人工智能快报
  • 6个用于大数据分析的最好工具

    大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来...

    小莹莹
  • 6个用于大数据分析的最好工具

    大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来...

    华章科技
  • 大数据行业薪酬居互联网之首;微信支付向商户开放数据 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。

    DT数据侠
  • 1分钟链圈 | EOS候选主链已产生,现于检验阶段 !微软收购Github引发恐慌,部分开发者将代码迁移至其他平台

    区块链大本营
  • AI一分钟 | 厉害了!英特尔正式发布电动飞行汽车;贝佐斯笑了,多家PC厂商结盟亚马逊Alexa,直怼微软Cortana

    一分钟AI 1. CES 2018 专题:英特尔正式发布电动飞行汽车Volocopter;华硕发布Chromebox 3,采用英特尔8代酷睿处理器;三星宣布20...

    AI科技大本营

扫码关注腾讯云开发者

领取腾讯云代金券