我使用IP +用户代理的散列作为每个访问网站的用户的唯一标识符。这是一个简单的方案,有一个非常明显的陷阱:标识符冲突。多个人使用相同的IP +用户代理组合浏览互联网。由相同哈希标识的唯一用户将被识别为单个用户。我想知道这个标识符出错的频率。
为了计算频率,我创建了一个理论上应该转换为零的两步漏斗:publish.click
> signup.complete
。(用户在发布之前必须注册。)运行这个漏斗1天,我的转换率为0.37%。我想,这个数字是那个漏斗的唯一标识符碰撞概率。查看原始数据(一个大约10,000行长的表),我证实了这个假设。37名注册由新用户完成,与在漏斗期间(1天)完成publish.click
的旧用户相同的哈希标识。(我之所以知道这一点,是因为散列在漏斗之间匹配,而在注册时分配的did则不匹配。)
我以为我把一切都解决了..。
但随后我运行漏斗1周,转化率提高到0.78%。5个月后,转化率为1.71%。
这里可能起什么作用?为什么我的转换(碰撞)速率随着实验周期的延长而增加?
我认为这可能与这样一个事实有关:唯一的用户通常只触发signup.complete
一次,而他们可能在一段时间内多次触发publish.click
。然而,我很难用语言表达这一假设。
任何帮助都将不胜感激。
发布于 2014-05-23 18:04:00
可能的解释从最简单的开始:
来自执行部分的便条。假设3被证明是正确的假设。
https://stackoverflow.com/questions/23794746
复制相似问题