在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 LocalizedSlotSparseEmbeddingHash 的后向操作。
不知道大家有没有这种感受,在学习推荐系统算法模型时,少不了embedding的应用,有的推荐算法模型甚至可以说就是在做embedding的过程,可见embedding在推荐系统中的重要性。
本篇文章follow一些 Graph in Rec 的文章,以前博主整理过的系列可以见:
embedding大家都不陌生,在我们的模型中,只要存在离散变量,那么一般都会用到embedding操作。今天这篇,我们将按以下的章节来介绍TF中的embedding操作。
我第一次接触 Embedding 是在 Word2Vec 时期,那时候还没有 Transformer 和 BERT 。Embedding 给我的印象是,可以将词映射成一个数值向量,而且语义相近的词,在向量空间上具有相似的位置。
MIND算法全称为:Multi-Interest Network with Dynamic Routing for Recommendation at Tmall,由阿里的算法团队开发。
Compositional Embeddings Using Complementary Partitions for Memory-Efficient Recommendation Systems(KDD2020)
embedding_lookup()的用法 这个函数真的很常用,尤其word2vec tf.nn.embedding_lookup()就是根据input_ids中的id,寻找embeddings中的第id行。比如input_ids=[1,3,5],则找出embeddings中第1,3,5行,组成一个tensor返回。 实例 1 import tensorflow as tf import numpy as np input_ids = tf.placeholder(tf.int32, shape=[Non
来源 | https://zhuanlan.zhihu.com/p/267375732
导言:近年来,向量嵌入(embedding)的技术在推荐系统领域取得了广泛的应用。然而向量嵌入技术需要大量数据训练,并且面临严重的冷启动问题。特别是只有极少数交互的冷启动物品,很难训练一个合理的物品ID embedding,称作冷启动ID embedding。这篇文章针对冷启动ID embedding提出了一种基于元学习的方法,探索如何预热冷启动物品ID embedding。
LR本身是一个经典的CTR模型,广泛应用于推荐/广告系统。输入的特征大多数是离散型/组合型。那么对于Embedding技术,如何在不使用深度学习模型的情况下(假设就是不能用DNN),融入到LR框架中呢?让我们来看看清华大学的博士石塔西大佬是如何解答的。
JOOX 是一个在国内低调,在海外尤其是东南亚地区却可以和 Spotify、YouTube Music 等知名大厂形成市场份额五五开的音乐播放产品。
我的本科与硕士都是非科班,几乎没有相关的基础。 接触机器学习竞赛的半年左右的时候参加了去年kaggle规模最大的jane street量化大赛,比赛前期屠榜了几次,最终也拿到了冠军。与此同时也拿了一些其他比赛的top名次。本次比赛的主要目的还是学习,通过比赛学习一些CTR建模方面的基础知识。这一次比赛的队友很强,有幸再次拿到了好名次。
直推式(transductive)学习方法是在一个固定的图上直接学习每个节点embedding,但是大多情况图是会演化的,当网络结构改变以及新节点的出现,直推式学习需要重新训练(复杂度高且可能会导致embedding会偏移),很难落地在需要快速生成未知节点embedding的机器学习系统上。
“万物皆可 Embedding”这句话似乎每个做算法模型小伙伴都听过了。“万物”具体是指什么呢?Embedding 又是如何实现的呢?本文介绍了一款像积木般易于组合、开箱即用的 Embedding 流水线。
现在出现了很多大模型,大模型已经成为现在的主流研究方向,那么推荐模型是否也可以做成大模型呢?
今天学习的是新加坡国立大学和中国科技大学同学合作的论文《Neural Graph Collaborative Filtering》,发表于 2019 年 ACM SIGIR 会议。
推荐系统的输入特征具有稀疏性、分布差异大的特性,这两个特性决定了AES工作的意义。其中“稀疏性”理解为特征id经过hash化后,往往只占据完整hash表的一部分。比如文章的category,一般是百级别到千级别的,为了避免冲突,我们一般设定hash表的大小是category数量的数倍,这样就会存在着大量没有使用到的表元素。进一步的,对hash表中的元素建立embedding table,也会存在着大量embedding没有被使用。因此,embedding占据了推荐模型中的大部分参数量。而“分布差异大”则表现为,不同field的特征数量往往差别很大,比如对于“性别”只有3个值,而user ID的量级可能是数以亿计。因此,不同的features所携带的信息也是各异的。特别的,对于一些低频的特征,不仅应该设定更小的embedding size,甚至还可能要将其过滤掉以避免出现过拟合;而对于一些高频的特征,不仅本身携带较大的信息量,和其他特征也会有更大的“共现”机会(“共现”的特性可以用来建模交叉特征,这里不做展开讲),因此应该设定更大的embedding size。
在推荐系统中,冷启动或长尾是一个常见的问题,模型在数据量较少的user或item上的预测效果很差。造成冷启动样本预测效果不好的重要原因之一是,冷启动样本积累的数据比较少,不足以通过训练得到一个好的embedding(通过user或item的id,映射到一个可学习的向量),进而导致模型在这部分样本上效果较差。我曾经在长尾预测效果不好怎么办?试试这两种思路中介绍过长尾问题的2种解法。
所谓高维空间的诅咒:在低维空间中是四不像,但随着 Embedding 维度的增加,取平均后的 Item Embedding 会和用户原本的 Embedding 越来越近。所以高维下大概率是“四都像”。
本文分享的论文题目是《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》
目前大多数的CTR模型采用的是Embedding和Feature Interaction(以下简称FI)架构,如下图所示:
今天学习的是清华大学和达摩院合作的一篇论文《Representation Learning for Attributed Multiplex Heterogeneous Network》,发表于 KDD 2019。
这个比赛是一个文本分类的比赛,这个比赛目标是在给定文本中判断是否为恶意评论即01分类。训练数据还给了其他多列特征,包括一些敏感词特征还有一些其他指标评价的得分特征。测试集没有这些额外的特征只有文本数据。
在这系列文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
今天我们不分析论文,而是总结一下Embedding方法的学习路径,这也是我三四年前从接触word2vec,到在推荐系统中应用Embedding,再到现在逐渐从传统的sequence embedding过渡到graph embedding的过程,因此该论文列表在应用方面会对推荐系统、计算广告方面有所偏向。
Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks https://arxiv.org/pdf/2105.04790.pdf SIGIR 2021
作者 | Chilia 哥伦比亚大学 NLP搜索推荐 整理 | NewBeeNLP
导读:本文将简要介绍推荐模型的发展历史,现状,和下一步的研究趋势。并重点介绍针对embedding数据的模型训练及优化。主要包含以下几大部分内容:
当前主流的推荐系统中,embedding 无处不在,从一定意义上可以说,把 embedding 做好了,整个推荐系统的一个关键难题就攻克了。因此,本文总结了移动腾讯网推荐系统中的 embedding 技术实践,力图达到娱人娱己的目的。
本文为GNN教程的第三篇文章 【GraghSAGE算法】,在GCN的博文中我们重点讨论了图神经网络的逐层传播公式是如何推导的,然而,GCN的训练方式需要将邻接矩阵和特征矩阵一起放到内存或者显存里,在大规模图数据上是不可取的。
Embedding,中文直译为“嵌入”,常被翻译为“向量化”或者“向量映射”。在整个深度学习框架中都是十分重要的“基本操作”,不论是NLP(Natural Language Processing,自然语言处理)、搜索排序,还是推荐系统,或是CTR(Click-Through-Rate)模型,Embedding都扮演着重要的角色。
mT5模型是T5模型在多语言数据集C4上的继续训练,T5本身是比较早了,是2019年的一个模型,但是后来又有很多次不同的升级。
ONN: Operation-Aware Neural Network for User Response Prediction
GNN在协同过滤相关方法中达到了最优的效果,从隐式反馈中负采样是协同过滤中需要面临的一大难题。当前在基于图的协同过滤方法中,负采样方法探索的还比较少。本文提出了即插即用的MixGCF负采样方法。
摘要:本篇从理论到实践介绍了当前超火的多模态学习模型。首先介绍了背景,将文本模态和图像模态在语义空间上对齐进行联合训练可以得到高质量的多模态embedding;然后介绍了多模态学习模型三种不同的划分方式;接着重点介绍了四种当前超火的多模态学习模型,包括VisualBERT、Unicoder-VL、VL-BERT和ViLT;最后基于Hugging Face的Transformer开源项目实践了多模态学习模型。想了解多模态学习模型并应用到业务实践的小伙伴可以多交流。
近日,腾讯TEG数据平台部机器学习团队与北京大学-腾讯协同创新实验室,合作研发了全新的稀疏大模型训练加速解决方案HET,其研究成果《HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework》已被国际顶会VLDB 2022录用。HET提出了一种新颖的基于Embedding缓存的训练方法,能够显著降低稀疏大模型分布式训练时通信开销,提升模型训练整体效率。 HET目前已正式开源: https://
摘要:本篇分享了多模态学习在CTR预估模型中的应用实践及效果展示。首先是背景介绍,通过多模态学习可以更好的处理多模态信息,从而得到更丰富的特征信息,可以更好的提升CTR模型效果;然后重点介绍了多模态学习在CTR模型中的应用实践及效果展示,主要包括多模态实验流程介绍、文本模态和图像模态的应用实践及效果展示和后续优化工作。对于想要将多模态学习应用到CTR预估模型中的小伙伴可能有所帮助。
链接 | https://zhuanlan.zhihu.com/p/59762355
faiss是一个Facebook AI团队开源的库,全称为Facebook AI Similarity Search,该开源库针对高维空间中的海量数据(稠密向量),提供了高效且可靠的相似性聚类和检索方法,可支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库
今天学习的是阿里巴巴 2018 年的论文《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》。
机器学习通过使计算机能够从数据学习和做出预测来彻底改变了人工智能领域。机器学习的一个关键方面是数据的表示,因为表示形式的选择极大地影响了算法的性能和有效性。嵌入已成为机器学习中的一种强大技术,提供了一种捕获和编码数据点之间复杂关系的方法。本文[1]探讨了嵌入的概念,其意义及其在各个领域的应用。
由于在公众号上文本字数太长可能会影响阅读体验,因此过于长的文章,我会使用"[L1]"来进行分段。这个系列将主要借鉴《Tensorflow实战Google学习框架》这本书,主要介绍实现语言模型的一些前期准备,后期会出更详细的文章。
前面我写了一篇文章来讲 BERT 是如何分词的,现在,轮到该说说 BERT 模型是如何定义的了。
本文将从 Embedding 的本质、Embedding的原理、Embedding的应用三个方面,详细介绍Embedding(嵌入)。
本文介绍的论文题目是:《Real-time Personalization using Embeddings for Search Ranking at Airbnb》
机器是如何理解我们的文字的呢?最早的技术是1-of-N encoding,把每一个词汇表示成一个向量,每一个向量都只有一个地方为1,其他地方为0。但是这么做词汇之间的关联没有考虑,因为不同词之间的距离都是一样的。
现实生活或者比赛中,我们会经常见到表格数据,其中包含了各种类别特征。 本文将简单介绍利用神经网络来表示类别特征的方法-Entity Embedding,这个方法首先出现在kaggle上的《Rossmann Store Sales》中的rank 3的解决方案,作者在比赛完后为此方法整理一篇论文放在了arXiv,文章名:《Entity Embeddings of Categorical Variables》。
DeBERTa刷新了GLUE的榜首,本文解读一下DeBERTa在BERT上有哪些改造
“ 解读YouTube、Airbnb、Alibaba的三篇经典论文,总结Embedding在工业界的一些用法和技巧,这三篇论文亮点众多,提供的经验非常值得我们去细细品味和借鉴。这篇文章篇幅较多(2w字),几乎把三篇论文的重要内容都进行了解读和总结,需花点时间去研读,文中难免有错误和理解不对的地方,欢迎指正讨论!”
领取专属 10元无门槛券
手把手带您无忧上云