分布式应用异常测试一二说

异常测试按性质分为应用层的业务逻辑异常测试、系统硬件/网络/文件/数据库/缓存/中间件异常测试,其中包含了许多的场景(单机、分布式),但所有的场景均和这两项有直接的关系。

业务逻辑异常测试体现在当上述的第二种异常发生时,是否能根据业务的需要或者架构的设计做出合理的业务处理反应,这是建立在第二种异常测试之上的,因此异常测试的关系也已经非常明确了,第一种测试根据业务的不同,范围和流程有不确定性,第二种测试则是在一些明确的规则和约定下进行。

当架构演进到分布式,往往在测试过程中给人无从下手的错觉,尤其在异常测试方面,其实不然,前面提到的单机和分布式看似是两种类型,单独看,单机的异常影响范围可能会小一些,但事实上他们在分布式环境中会产生互相影响:

单机:从系统层面来说就是指单一进程,从异常测试角度来看,影响范围发生在线程或进程级别,线程级别的异常可能导致线程的结束,且没有启动新的线程来代替,进程级别可能导致线程锁的不释放,导致其他线程都挂起等待。

分布式:分布式是一个协同工作的应用环境,这种异常往往容易引起其他进程的挂起,或者数据库、缓存、中间件的问题,主要有网络调用所占用的资源、数据库访问等。

单机的异常如果处理不当,会引起整个环境中的资源不可用,从而导致环境中的每个单机都出现异常。根据上述的一些概念,可以列出异常测试中最重要的一些场景:

系统资源:cpu、内存使用率过高,能否能将请求切到到资源利用率低的服务器上;

数据量大小和形式:数据到底应该注入多少满足后续的压力测试,各服务对数据格式的要求和转换;

文件读写:

本地写:对同一个文件打开的的数量过多,或者只打开不关闭,导致文件句柄数超过系统阈值;

本地读:打开一个不存在的文件,是否有对应处理逻辑;

网络存储:服务不可用;

应用连接:

短连接:请求方未设置超时时间,长时间等待响应方的响应,从而导致请求的大量堆积,线程池的处理线程被用完,导致大量新的用户请求被拒绝;

长连接:在网络出现异常状况后,断开的连接是否能重新建立,请求方如拿到失效的连接,是否能处理异常;

数据库:

数据源切换:如果所切换的数据源连接处于不可用状态或宕机时,是否会长时间等待或重试;

表锁、行锁:长时间更新操作,导致其他对此表的修改操作被挂起;

慢SQL的预防:通过对SQL的提前分析,来预防慢SQL相关的问题,及时告知DBA进行优化;

缓存:

key的失效:在获取不到key后,是否能正常处理;

锁的释放:申请到锁的一方如果意外重启,是否能在重启后释放锁;

缓存服务不可用;

消息中间件:

消息记录表切换:是否丢失;

清除消息记录:是否丢失记录;

服务发现:

服务不可用:是否有其他处理措施;

单台不可用:是否能重新选举,重新建立连接;

应用容器:

连接数:配置优化;

请求处理线程:配置优化;

jvm堆栈大小:参数优化;

前端静态化页面:

后端服务不可用;

缓存不可用;

数据库中间件:

数据访问是否在错误发生后进行了正确的转移;

对于上层业务来说是否进行了正确的向下隔离;

-----------------------------END---------------------------------

本文来自企鹅号 - 龙腾测试媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏along的开发之旅

文加图, 理解Http请求与响应

在讲解OkHttp之前, 我们首先来个高清大图, 看下http请求的整个步骤, 有个整体概念.

622
来自专栏文渊之博

SQLServer 延迟事务持久性

SQL Server 2014新功能 -- 延迟事务持久性(Delayed Transaction Durability) SQL Server事务提交默认...

1988
来自专栏北京马哥教育

Nginx+FPM结构模型剖析及优化

随着php脚本语言使用的普及,目前webserice服务大部分都在用nginx+(php-fpm)的结构,了解了其工作过程后才可以在各个方面想办法做调整优化和故...

4026
来自专栏Java进阶架构师

一篇文章带你详解 HTTP 协议(上)

利用 TCP/IP 协议族进行网络通信时,会通过分层顺序与对方进行通信。发送端从应用层往下走,接收端则从链路层往上走。如下:

904
来自专栏Jed的技术阶梯

Kafka 核心组件之协调器

假设某 topic 有4个分区,消费者组中只有一个消费者,那么这个消费者将消费全部 partition 中的数据。

1033
来自专栏我和PYTHON有个约会

爬虫0010:概述爬虫概述

在各行各业如火如荼快速发展的今天,市场是决定一家公司是否可持续发展最重要的一个衡量指标,市场的定位和发展核心是对行业数据的分析,对于数据的分析必须进行大量数据的...

511
来自专栏企鹅号快讯

Flume和Kafka

Flume+Kafka+Storm+Redis实时分析系统基本架构 1) 整个实时分析系统的架构是 2) 先由电商系统的订单服务器产生订单日志, 3...

3566
来自专栏我是攻城师

为什么说Elasticsearch搜索是近实时的?

33313
来自专栏大魏分享(微信公众号:david-share)

TCP 应答时间参数对网络性能的影响

TCP 应答延迟的概念 TCP 应答延迟是 TCP 传输层的一个优化策略,为了降低网络数据包压力,减少小数据包而进行的一个处理,称之为 Nagle 演算法。从本...

33012
来自专栏博客园迁移

dubbo见解

  服务容器负责启动,加载,运行服务提供者。   服务提供者在启动时,向注册中心注册自己提供的服务。   服务消费者在启动时,向注册中心订阅自己所需的服务。  ...

542

扫码关注云+社区