文本
我们使用BERT模型对文本序列进行特征提取. BERT的模型结构与Transformer Encoder一样, 主要组成是Multi-head Attention:
?...BiT各个模型在部分下游任务的效果参见下图
?
综合考虑模型效果和计算量, 我们使用ResNet-101X1.
HashTag优化
在社交网络中, hashtag有特别的意义....在视频号中, hashtag要么是对feed的高度概括, 要么是话题, 当然, 还有一部分蹭热度. 无论哪种情况, hashtag与其他文本的pattern都不一样....然而,由于训练语料不同, 预训练BERT无法正确理解hashtag的特殊含义. 因此, 为了强化hashtag的信息, 将描述和hashtag内容分离,将hashtag单独作为一个模态处理:
?...在实际使用中,由于我们有三个模态的数据:视频,描述(去掉hashtag),hashtag,我们可以构造下面三个任务:
视频/描述是否来自同一feed
描述/hashtag是否来自同一feed
视频/hashtag