首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

KDD23 | 基于Transformer的实时用户行为推荐模型

针对下一步动作预测对用户活动进行编码的顺序模型,已经成为构建网页规模个性化推荐系统的热门设计选择。传统的顺序推荐方法要么在实时用户行为上进行端到端学习,要么以离线批量生成的方式单独学习用户表示。本文(1)介绍了Pinterest的Homefeed排名架构,这是我们的个性化推荐产品,也是最大的参与面;(2)提出了TransAct,一个从用户实时活动中提取用户短期偏好的顺序模型;(3)描述了我们的混合排名方法,该方法结合了通过TransAct进行的端到端顺序建模和批量生成的用户嵌入。混合方法使我们能够将直接从实时用户活动中学习的响应性优势与批量用户表示的成本效益结合起来,后者是在较长时间内学习的。我们描述了消融研究的结果,我们在产品化过程中遇到的挑战,以及在线A/B实验的结果,这证实了我们的混合排名模型的有效性。我们进一步展示了TransAct在其他表面,如情境推荐和搜索中的有效性。

03

基于云函数全景录制,用 Markdown 和 Tailwind CSS「写」视频

01. 传统视频制作的缺点 以往我们都已经习惯了通过专门的软件来制作视频,但是这些软件往往有很高的学习成本,需要花很多的时间去熟悉它的功能、菜单以及它自己制造的一些概念,理解以后,才能随心所欲的做出想要的效果。 另一方面,这些软件几乎都是通过图形界面来操作,当我们有内容要进行修改时,必须打开这个软件,手工的去调整。比如你想改掉视频中一个名词,只能一个一个地方的去找,而不能像我们在编辑器中直接批量替换。 在过去,我们把这些作为成本接受了下来。但是现在,随着各种技术的发展和成熟,我们多了一个选择。 02. 用

02

GPT-4的详细信息已经泄露

这位作者说GPT-4的详细信息已经泄露,不知道可信度如何。一些关键信息:- GPT-4的大小是GPT-3的10倍以上。我们认为它在120层中总共有大约1.8万亿个参数。- GPT-4是多个专家模型混合在一起,但不是之前说的8个专家,而是16个。研究人员已经证明,使用64到128个专家比16个专家能够获得更好的损失,但这只是纯粹的研究。OpenAI选择16个专家的一个原因是,更多的专家在许多任务上难以泛化。更多的专家也可能更难以达到收敛。- 预训练阶段的上下文长度(seqlen)为8k。GPT-4的32k seqlen版本是在预训练后对8k进行微调的结果。- 为了在所有的A100s GPUs上并行化,他们使用了8路张量并行,因为这是NVLink的限制。- 如果他们在云中的成本约为每小时1美元/A100,那么这次运行的训练成本将约为6300万美元。- GPT-4推理成本是175B参数的Davinchi的3倍。这主要是由于GPT-4需要更大的集群和实现的利用率更低。它的成本估计是0.0049/ 1K tokens。(目前GPT-4的API价格大约是

02

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券