https://arxiv.org/pdf/2403.01744v2
本文来自小红书和中科大, 首次尝试了将LLM应用到笔记推荐(Note Recommendation)中. 更具体的,
下面是个简单的流程示例
下面是更具体的训练流程, 主要有3块: prompt的构建, 以及2种训练任务
对于第i篇笔记, 其主要由4部分组成, 分别代表标题(title), 标签(hashtag), 类目(category)和内容(content).
相应的, prompt的结构如下:
这里[EMB]代表经过LLM生成的笔记的embedding, 用于后续的对比学习任务.
类目生成的prompt
标签主题生成的prompt
如上图, 主要就2步:
(1) 共现统计来构建相似笔记对. 这里思路比较常见, 就是统计2个笔记被哪些用户共同点击过, 次数越多, 笔记越像.
(2) 正负样本对比loss. 正样本相似度大于负样本.
对于这部分, 文中介绍的较为简洁, 主要是1个预测公式和loss计算.
最后, 把2种loss做了个加权融合(调控), 进行联合训练
效率实验都比base要好一些, 这里简单罗列一下. 召回离线评估指标选取的是经典的Recall系列.
后面的参数实验也调整了, 但是看起无明显规律, 且的时候效果也还不错...
作者也找了一些case去看, 基本符合预期.