专栏首页搜狗测试软件品质评测系统-评测结果展示

软件品质评测系统-评测结果展示

1

为什么要进行数据展示

在前几次的分享中,设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后,我们会拿到第一手的评测数据。在我们之前的实践过程中,拿到原始评测数据后会通过观察数据给出一个评测结论。长此以往发现这样并不利于保存数据记录,并且没法反映出一段时间内评测指标的变化趋势。为了解决这个问题,同时为了清晰、美观地展示出评测报告,我们设计了评测结果展示平台。

2

哪些数据需要展现

评测结果展现

对于在评测设计时选定的评测指标,需要准确完整地展现在评测系统中。展现出来的数据需要客观反映被评测模型(或软件系统)的各项指标,使得用户在看完结果展现后即可对被评测模型(或软件系统)的品质情况有个全面的认知。这儿有一个小技巧,对于评测结果,可以采用文字+图表的形式进行展现,文字部分用最简洁的语言概括整体结论,图表是对数字的抽象,作为对文字结论的支撑,与文字结论一同出现,增强评测结果展现的完备性。我们据此设计了一个评测的结果报告,每次评测完成后会通过该报告给出评测结论:

版本间数据对比

一般情况下,被评测模型(或软件系统)都会有一个从粗糙到精细、从单一到完备、从朴素到智能的发展过程,因而每次评测的结果除了反映当时被评测模型的品质之外,与之前版本的数据对比也显得尤为重要。通过版本间的数据对比,可以看到一段时间内被评测模型(或软件系统)的品质指标发展趋势。对于每个版本的修改,也能直观地给出结论:这个版本的改动对于效果的影响到底是正向还是负向,影响有多大。对比发现的正向影响,我们可以进行深入分析,找到正向影响的因素,从而反哺被评测模型(或软件系统)的策略和模型优化。版本间的数据对比重在反映一段时间内某项指标的变化趋势,因此建议选择使用折线图进行展示:

竞品间数据对比

除了版本间数据的对比外,竞品之间的数据对比我们也必须关注。几乎每个软件产品或者每个功能都避免不了有“竞品”的存在,不论我们的产品当前是领先于竞品,还是跟竞品不相上下,亦或是落后于竞品,我们都需要通过数据指标去衡量和竞品之间的差别,从而帮助我们在战略上明确发展方向。竞品间数据对比主要关注各个产品在指定的指标下的数据差异,因此推荐使用柱状图进行展示

3

如何进行结果展示

准确

对于评测结果的展示,最重要的就是数据准确性。即我们最终展示给用户的评测结论以及各类图标数据,都应当与原始的评测结论、数据保持一致,同时评测结果的展示要与最终上线后预期的结果或趋势保持一致,这样的评测结论才是可信的、有指导意义的。在保证准确性方面,要做到决不能更改原始评测数据,并且对于原始评测数据中抖动较大的数据,需要深入分析原因,最终解释清楚为什么会出现抖动,使评测结果客观、真实地反映被评测模型(或系统)的品质状况。

清晰

在准确性之外,清晰展现也是一个重要的点。清晰展现的目的是为了消除歧义,帮助用户(评测结果的消费者)准确到位地理解评测结果的含义。举个例子,比如信息检索系统中都会有一个关键指标“准确率”,但如果在评测结果中直接给出一个准确率的数值,这样可能会引起用户的猜测:这个准确率的前提是什么?这个值到底是什么水平?因此,为了让结果展现得更清晰,我们可以在展示时说明被评测的场景、前提。在做数据展示时,可以参考常见图表的使用场景:比如历史版本的数据可以用折线图,竞品对比可以采用柱状图,数据占比可以采用饼图等,在实际操作中,可以根据不同场景选择不同的数据图表,更好地帮助用户理解该指标的含义。

工具推荐

为了保证评测结果准确清晰地呈现出来,最终图表的制作和展现也是重要的一环。早期我们拿到评测的原始数据后,会进行数据提取然后用Excel或其他软件手工绘图,后来发现随着评测工作的持续开展,手动绘图效率很低,长期来看借助各种工具制作清晰好看的图表成为了必不可少的手段。为此我们在平台设计时调研了部分开源的图表绘制工具,几款工具各有特色,推荐给大家,可以按需使用。

- echart(https://echarts.apache.org/en/index.html)

- grafana(https://grafana.com/)

- HighChart(highcharts.com)

4

总结

需要说明的是,对于评测结果的展示并不是一成不变的。本文只是列举了一些通用的原则和方法,权当抛砖引玉。建议大家在设计评测系统时,多做用户调研掌握清楚用户(评测报告消费者)的实际需求和最关注的部分,结合准确、清晰的原则,设计出最符合自己实际情况的评测结果展示系统。

本文分享自微信公众号 - 搜狗测试(SogouQA),作者:zqzq

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 软件品质评测系统-评测体系

    相信每个测试同学都会有这样的疑问,有时候评测效果很棒的项目,仍然会接到某些场景下的用户反馈,这个时候就需要我们重新思考应该怎么去整体的评估产品质量的好坏,怎么样...

    用户5521279
  • 智能算法评测系统实践(一)

    随着人工智能的发展,我们现在各个产品线中都融入大量的智能算法,方便了用户的同时也给我们评价产品的具体效果带来了很大的困难。这里就简单介绍一些我们在智能算法评测实...

    用户5521279
  • 智能算法评测系统实践

    评测系统的设计是整个评测系统的灵魂,决定了整个评测系统该怎么做,而且对后续产品算法的走向都起到至关重要的作用。

    用户5521279
  • 软件品质评测系统-评测体系

    相信每个测试同学都会有这样的疑问,有时候评测效果很棒的项目,仍然会接到某些场景下的用户反馈,这个时候就需要我们重新思考应该怎么去整体的评估产品质量的好坏,怎么样...

    用户5521279
  • 智能算法评测系统实践(一)

    随着人工智能的发展,我们现在各个产品线中都融入大量的智能算法,方便了用户的同时也给我们评价产品的具体效果带来了很大的困难。这里就简单介绍一些我们在智能算法评测实...

    用户5521279
  • 智能算法评测系统实践

    评测系统的设计是整个评测系统的灵魂,决定了整个评测系统该怎么做,而且对后续产品算法的走向都起到至关重要的作用。

    用户5521279
  • 软件品质评测系统-开篇

    上个系列给大家分享了基于白盒测试的质量保障体系,相信大家对如何高效保障产品质量都有了一些想法。

    用户5521279
  • 中国没有莫博士,谁的失落?

    不知道莫博士还在评价罗王吵架的人,可以先歇菜了。莫博士(Walt Mossberg)1970年加入《华尔街日报》,1990年从时政记者转战科技评论及评测,这一转...

    罗超频道
  • 记录一次接口评测的优化

    我们在测试过程中往往使用不同的方式评估产品的质量,这些方法种类繁多,从简单的缺陷计数到严格的统计建模不一而足。当我们的功能涉及到过量或者无法穷尽的数据时,我们需...

    用户5521279
  • Andrej Karpathy:神经网络是“软件2.0”,而非机器学习的一种工具

    【新智元导读】深度学习和计算机视觉专家、特斯拉人工智能部门主管Andrej Karpathy最近提出将神经网络视为Software 2.0,而非“机器学习中的一...

    新智元

扫码关注云+社区

领取腾讯云代金券