今天测一测待办app,我选了滴答清单和To-Do这两款产品。
选他们主要是因为功能相似且简单,而且前者在国内算做得比较好的,后者又是国际大厂,刚好对比。
选两组用户来测2款产品。因为方法和流程都由我来把控,也会找真实用户,所以结果还是比较可信的。
然而刚开始就出现了一个很尴尬的问题,大部分同学都想测滴答清单,To-Do被冷落了
可以理解,毕竟二者的下载量相差有点大:
我好说歹说,劝了几个人,总算让双方的差距不那么大。但最终还是选择测滴答清单的人,明显多过To-Do的。
然而测试结果出来后,事情却出现了反转。
不少同学都表示,没想到To-Do整体测试结果竟优于滴答清单。
为何To-Do的
测试结果更好?
用户测试完成后,我们得出了5项指标。
其中To-Do占明显优势的指标有3项,占轻微优势的指标有1项,最后还有一项是轻微劣势。
接下来先大致介绍一下这些指标,最后会提供2份用户测试报告的获取方式。
1.任务完成率
To-Do明显优势
因为2个产品核心功能相似,所以我们让参与测试的用户按照同样的任务顺序使用滴答清单和To-Do。
结果滴答清单的任务率为68.8%,To-Do的任务完成率为84.1%,后者明显更有优势(高了22.2%)。
2.可用性问题数量
To-Do明显优势
滴答清单记录17个可用性问题,而To-Do只记录下13个可用性问题,这个差异是不是也挺明显的?
3.问题发生率
To-Do明显优势
看看上面的问题列表中,左侧第一列就是问题发生率。
什么是问题发生率?假设这个问题5个用户有4个用户遇到,那么问题发生率就是80%。问题发生率越高,说明这个问题很多人都会遇到,不是偶发性问题。
也就是说问题发生率越低越好,因为说明更少人遇到。
而滴答清单的问题发生率平均46.4%,To-Do的则是35.9%,后者明显更有优势(低了22.6%)。
4.问题评级
To-Do轻微优势
看一个问题重不重要,除了发生率之外,也要考虑严重性。
而这个严重性要怎么评呢?我们是用统一的评级标准,多人分别评分后算平均值。
问题严重性的最高级为4,最低级为0,级别越低越好。
滴答清单的平均评级是2.2,而To-Do的是2,后者比前者略有优势(数值低了9.1%)。
5.SUS评分
To-Do轻微劣势
全称系统可用性测试评分,这个东西就是一套专门在可用性测试之后让用户填写的评分问卷,非常标准通用,总共10题。感兴趣的朋友可以自己去搜索“SUS+可用性测试”。
滴答清单的SUS评分是52.4%,而To-Do的则是50.2%,后者轻微劣势(低了4.2%)。
对了,这里必须解释一下。不要相信网上那些SUS多少分算及格,多少分算优秀的说法。这个分数根本没有绝对的标准,不同的产品甚至不同的任务,得出的分数相差太大了。
谁输谁赢?
虽然从这次可用性测试来看,确实是To-Do整体赢了滴答清单。微软不愧为大厂,这种边缘小项目也不会出错。
然而从整体来看,AppStore下载量To-Do只有5万,而滴答清单高达12万——差了2倍不止。
不过可能是因为微软不看重To-Do懒得投资源,也不能全信。
但看看这次用户测试,里面唯一的用户主动评分的环节,To-Do还是输了4.2%——虽然差别不大,但确实是输了。
可以说,To-Do这个产品,虽然设计水平不差,但确实不讨喜。
相比之下,滴答清单虽然有更多严重的可用性问题,但确实更讨喜一些。
你是喜欢一个精心打扮、爱笑,但大大咧咧说经常错话的人呢?
还是喜欢衣着简单、严肃,但处事圆滑成熟稳重的人呢?
哪种更好?真的很难评价。
单看销量,滴答清单赢得无懈可击。但做完一这轮用户测试之后,我也不觉得To-Do做得不好。
真的要具体去看设计细节,才能感受到哪种最适合自己。