背景
搜索引擎点击日志提供了宝贵的相关信息来源,但这些信息是有偏的。
有偏的一个主要来源是呈现顺序:点击的概率受文档在结果页面中的位置的影响。本文着重于解释这种偏差,建模点击概率如何依赖于位置。...我们进行了大量的数据收集工作,扰乱了一个主要搜索引擎的排名,看看点击量是如何受到影响的。然后,我们探讨四个假设中哪一个最能解释实践中位置的影响,并将其与简单的logistic回归模型进行比较。...我们的经验观测来自于一个标准的Top-10排序,我们诸多模型中的一个假设用户倾向于按从1-10的顺序观测结果。...所以一个实验可以被一个四元组鉴定:query, A, B, m; query在我们的实验中没有使用, 它仅仅用于对观测进行分组,我们按和的顺序给出了结果。在一次实验中,我们收集了六个计数。...按顺序显示搜索结果的次数:,在上的点击次数, ,在上的点击次数, , 我们翻转顺序得到:, 以及,此处我们用1和2来表示翻转的上面和下面的ranks,即使当。