平时大家是如何做推荐系统的Embedding的呢?...为什么要用DHE
其实在背景中已经说了一部分理由了,主要总结为以下3点:
字典大小过大:推荐系统中像是videoid,itemid,advertiserid都很大,不像NLP的bert,字典只有30K...数据分布不均:类别特征也总是分布不均的,长尾的特征对embedding极其不友好.
总结下来用DHE就对了.
Deep Hash Embedding
先看下什么是好的encoding?...高熵性(H-D):众所周知,熵越高信息量越高,我们肯定不希望有哪一位编码是冗余的.
了解了什么是好的encoding,我们看看哪些encoding满足这些条件:
?...好吧,说来说去只有DHE满足了好的encoding的所有条件
?
,所以DHE是如何编码的呢?