随着人工智能的发展,我们现在各个产品线中都融入大量的智能算法,方便了用户的同时也给我们评价产品的具体效果带来了很大的困难。这里就简单介绍一些我们在智能算法评测实践过程中的一些心得,主要会从评测系统的设计、评测的执行以及评测结果的分析三个方面展开,由于内容较多这篇文章我们重点阐述第一点。
评测系统的设计是整个评测系统的灵魂,决定了整个评测系统该怎么做,而且对后续产品算法的走向都起到至关重要的作用。在系统的设计过程中,我们目前的经验主要有评测指标、评测数据以及评测场景三个方面需要着重考虑。
评测指标决定了我们要评什么,通常算法的指标有准确率、召回率、覆盖率、多样性、实时性等等。
具体的需要因产品的特性而定,比如一般推荐系统都会比较多样性,但如果是个输入法,你不给用户经常用的词而且多样性地给用户各种没用过甚至是没见过的,那就是花样作死。
而且不止只是从产品的特性出发,还需要全面地抓住产品特性相关的所有指标。比如前两年用头条时,在NBA板块感觉文章推荐的准确以及品质都还可以,不过实时性不好经常会给我推一些旧新闻,比如今天刚好火箭的比赛,打开头条看看,发现推了一条火箭大胜的新闻,但实际上火箭当天输球了,这条新闻是两天前的比赛,这时给用户的体验就非常不好。
从产品最根本的特性出发、同时全面掌控产品的特性,这就是我们规划评测指标最核心的目标。
都说人工智能是数据喂出来的,其实对评测来说也是一样,结果的好坏完全取决于数据。
所以我们评测数据的最核心的就是要客观公正。比如以前常见的Bad Case就是拿算法训练数据来评测,效果异常的好,但产品上线后用户的反馈很一般甚至很差;还有就是我们经常犯的错误,纯粹拿自己用户的数据来评测,这里很容易受到马太效应的影响。
除了数据来源的客观公正性,还有数据选择的客观公正也非常重要。这里就要求能够从用户角度全面地选取评测数据。比如前段时间我父母过来玩,发现他们在我家用方言聊天时有一定几率会唤醒小爱音箱,这个体验头一两次还感觉还蛮有趣但多了就挺烦,这里我就怀疑他们针对我老家那边的方言评测没有做好,不过南方的方言数不胜数且博大精深这点也能理解小爱同学。
评测场景即我们在哪进行评测,广义上也是评测数据的一种,不同场景下相同数据往往也有不同的意义。比如还是小爱音箱,我就发现在开着电视时唤醒比较难,当然这里也不是说小爱同学不好,只不过是强调我们在评测时需要考虑这些不同场景的影响。
当然评测的场景也需要结合产品的特性,比如上述场景在输入法(文字输入)的评测时就不用考虑。
所以这里同样地,我们需要根据产品的特性,从用户的角度出发,全面客观地选取评测场景。