平时大家是如何做推荐系统的Embedding的呢?...为什么要用DHE
其实在背景中已经说了一部分理由了,主要总结为以下3点:
字典大小过大:推荐系统中像是videoid,itemid,advertiserid都很大,不像NLP的bert,字典只有30K...(因为bert用了word-piece),我们无法用NLP的方法对推荐领域的ID特征进行降维,也没办法直接Lookup一张巨大的词表....唯一性(U):好的encoding对每一个不同的特征编码都要是唯一的.如果这个保证不了,后续的decoding就没办法区分不同的特征了,那模型效果也大打折扣....好吧,说来说去只有DHE满足了好的encoding的所有条件
?
,所以DHE是如何编码的呢?