先抛出个问题
大数据测试可以定义为涉及检查和验证大数据应用程序功能的过程
。大数据是传统存储系统无法处理的大量数据的集合。
测试处理数 TB 数据的应用程序将从一个全新的级别和开箱即用思维中学习技能。质量保证团队关注的核心和重要测试基于三种方案。即
批处理数据处理测试涉及在批处理模式下使用批处理存储单元(如 HDFS)处理应用程序时运行数据的测试过程。批处理测试主要涉及
当应用程序处于实时数据处理模式时,实时数据处理测试处理数据
。应用程序使用实时处理工具(如Spark)运行。
实时测试涉及在实时环境中测试的应用程序,并检查其稳定性。
交互式数据处理测试集成了与应用程序交互的实际测试协议
,就像真实用户的观点一样。交互式数据处理模式使用交互式处理工具,如HiveSQL。
Big-Data 在处理传统数据处理单元无法处理的多种格式数据方面的优势而声名大噪。大数据可以处理的数据格式如下所示。
在易于访问的行和列下有意义地组织的表格数据称为结构化数据
。它可以在不同存储单元(如 RDBMS)的命名列下组织。比如表格数据
半结构化数据完全位于结构化和非结构化数据之间。它不能直接引入 RDBMS,因为它包括元数据、标记,有时还包含重复的值。数据需要一些操作才能应用于数据,然后才能被输入。示例: Csv,Json(实际csv和excel的区别就是这个, 前者处理大数据有优势)
不遵守任何类型结构的数据称为非结构化数据。与结构化数据不同,非结构化数据难以存储和检索。组织生成的数据大部分为非结构化数据类型。示例:图片, 视频, 音频
拥有测试大数据应用程序的完美环境至关重要。构成数据测试的基本要求如下。
测试大数据应用程序的一般方法涉及以下阶段。
数据首先使用提取工具从源加载到大数据系统
。存储可能是 HDFS、MongoDB 或任何类似的存储。然后,对加载的数据进行交叉检查,以检查错误和缺失值。
在此阶段,将生成数据的键值对。稍后,MapReduce 逻辑将应用于所有节点,并检查算法是否正常工作。此处将执行数据验证过程,以确保输出是预期的。
在此阶段,生成的输出已准备好迁移到数据仓库。在这里,检查转换逻辑,验证数据完整性,验证位置的键值对的准确性。
有许多类别可以测试大数据应用程序。下面很少登记主要类别。
大数据中的单元测试与更简单应用程序中任何其他单元测试类似。完整的大数据应用程序分为多个部分
,每个细分市场都经过严格测试,具有多种可能性,以取得预期结果。如果段失败,则发送回开发和改进。
功能测试可以称为测试大数据应用程序的不同阶段。大数据应用程序旨在处理巨大的数据块。如此庞大的数据量和种类繁多的数据往往容易带来数据问题,例如数据错误、值重复、元数据、缺少值
等等。
这正是测试大数据的先驱者设计大数据功能测试程序的原因。测试大数据的不同阶段如下。
数据存储阶段侧重于以下参数
这是功能测试的最后阶段。它处理以下问题。