专栏首页搜狗测试智能算法评测系统实践(一)

智能算法评测系统实践(一)

随着人工智能的发展,我们现在各个产品线中都融入大量的智能算法,方便了用户的同时也给我们评价产品的具体效果带来了很大的困难。这里就简单介绍一些我们在智能算法评测实践过程中的一些心得,主要会从评测系统的设计评测的执行以及评测结果的分析三个方面展开,由于内容较多这篇文章我们重点阐述第一点。

评测系统的设计

评测系统的设计是整个评测系统的灵魂,决定了整个评测系统该怎么做,而且对后续产品算法的走向都起到至关重要的作用。在系统的设计过程中,我们目前的经验主要有评测指标评测数据以及评测场景三个方面需要着重考虑。

评测指标

评测指标决定了我们要评什么,通常算法的指标有准确率、召回率、覆盖率、多样性、实时性等等。

具体的需要因产品的特性而定,比如一般推荐系统都会比较多样性,但如果是个输入法,你不给用户经常用的词而且多样性地给用户各种没用过甚至是没见过的,那就是花样作死。

而且不止只是从产品的特性出发,还需要全面地抓住产品特性相关的所有指标。比如前两年用头条时,在NBA板块感觉文章推荐的准确以及品质都还可以,不过实时性不好经常会给我推一些旧新闻,比如今天刚好火箭的比赛,打开头条看看,发现推了一条火箭大胜的新闻,但实际上火箭当天输球了,这条新闻是两天前的比赛,这时给用户的体验就非常不好。

从产品最根本的特性出发、同时全面掌控产品的特性,这就是我们规划评测指标最核心的目标。

评测数据

都说人工智能是数据喂出来的,其实对评测来说也是一样,结果的好坏完全取决于数据。

所以我们评测数据的最核心的就是要客观公正。比如以前常见的Bad Case就是拿算法训练数据来评测,效果异常的好,但产品上线后用户的反馈很一般甚至很差;还有就是我们经常犯的错误,纯粹拿自己用户的数据来评测,这里很容易受到马太效应的影响。

除了数据来源的客观公正性,还有数据选择的客观公正也非常重要。这里就要求能够从用户角度全面地选取评测数据。比如前段时间我父母过来玩,发现他们在我家用方言聊天时有一定几率会唤醒小爱音箱,这个体验头一两次还感觉还蛮有趣但多了就挺烦,这里我就怀疑他们针对我老家那边的方言评测没有做好,不过南方的方言数不胜数且博大精深这点也能理解小爱同学。

评测场景

评测场景即我们在哪进行评测,广义上也是评测数据的一种,不同场景下相同数据往往也有不同的意义。比如还是小爱音箱,我就发现在开着电视时唤醒比较难,当然这里也不是说小爱同学不好,只不过是强调我们在评测时需要考虑这些不同场景的影响。

当然评测的场景也需要结合产品的特性,比如上述场景在输入法(文字输入)的评测时就不用考虑。

所以这里同样地,我们需要根据产品的特性,从用户的角度出发,全面客观地选取评测场景。

本文分享自微信公众号 - 搜狗测试(SogouQA),作者:吴芳昱

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 智能算法评测系统实践

    评测系统的设计是整个评测系统的灵魂,决定了整个评测系统该怎么做,而且对后续产品算法的走向都起到至关重要的作用。

    用户5521279
  • 软件品质评测系统-评测体系

    相信每个测试同学都会有这样的疑问,有时候评测效果很棒的项目,仍然会接到某些场景下的用户反馈,这个时候就需要我们重新思考应该怎么去整体的评估产品质量的好坏,怎么样...

    用户5521279
  • 如何设计评测方案

    用户5521279
  • 智能算法评测系统实践

    评测系统的设计是整个评测系统的灵魂,决定了整个评测系统该怎么做,而且对后续产品算法的走向都起到至关重要的作用。

    用户5521279
  • 软件品质评测系统-评测体系

    相信每个测试同学都会有这样的疑问,有时候评测效果很棒的项目,仍然会接到某些场景下的用户反馈,这个时候就需要我们重新思考应该怎么去整体的评估产品质量的好坏,怎么样...

    用户5521279
  • 如何设计评测方案

    用户5521279
  • “独立”评测自媒体,为何就成了一门简单粗暴的生意?

    12月3日,新榜上一则微信公众平台内测“洗稿投诉合议小组”,协助平台对有争议的“洗稿”内容进行合议的消息引起了自媒体圈的注意。按照已知的消息,如果用户接受邀请,...

    曾响铃
  • 软件品质评测系统-评测结果展示

    在前几次的分享中,设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后,我们会拿到第一手的评测数据。在我们之前的实践过程中,拿...

    用户5521279
  • 软件品质评测系统-开篇

    上个系列给大家分享了基于白盒测试的质量保障体系,相信大家对如何高效保障产品质量都有了一些想法。

    用户5521279
  • 中国没有莫博士,谁的失落?

    不知道莫博士还在评价罗王吵架的人,可以先歇菜了。莫博士(Walt Mossberg)1970年加入《华尔街日报》,1990年从时政记者转战科技评论及评测,这一转...

    罗超频道

扫码关注云+社区

领取腾讯云代金券