首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DNN可以进行高阶特征交互,为什么Wide&Deep和DeepFM等模型仍然需要显式构造Wide部分?

作者:王鸿伟 链接:https://www.zhihu.com/question/364517083 理论上来说DNN可以拟合任意函数,因此可以拟合低阶特征+高阶特征组合;但是在实际并不会将原始特征输入全连接...DNN同时捕捉低阶+高阶特征组合,而是使用FM显式构造二阶或者Wide&Deep方式分别建模低阶高阶特征。...DNN可以进行高阶特征交互,为什么RNN模型仍然需要各种门控单元来处理序列?DNN学不会遗忘信息或者保留信息吗?...这些二阶能不能真的提高模型性能,并没有理论上保证,因为这取决于具体推荐系统场景是否真的有很多这种二阶相关性(例如说“英语用户喜欢看科幻电影”)。...但是构造四阶代价实在太大了,所以在Wide&Deep或者FM只有二阶,我们期望可以借此覆盖大多数简单逻辑,而又不至于让模型过于复杂。

1.2K10

深入理解推荐系统:特征交叉组合模型演化简史

此外,FM模型具有可以用线性时间来计算,以及能够与许多先进协同过滤方法(如Bias MF、svd++等)相融合等优点。FM通过特征对之间隐变量内积来提取特征组合,函数形式如下: ?...而且如果不考虑预训练过程,模型网络结构也没有考虑低阶特征组合 FNN模型总结 FNN为高阶bit-wise级特征交叉,优点是每个特征嵌入向量是预先采用FM模型训练,因此在学习DNN模型时,训练开销降低...从模型结构图可以看出,FM 和 DNN共用embedding层结果,然后FM部分负责低阶特征组合(二阶),DNN负责高阶特征组合,然后将低阶高阶部分合在一起训练。...DCN模型总结 DCN为bit-wise高阶交叉,DCN引入cross network理论上可以表达任意高阶组合,同时每一层保留低阶组合,参数向量化也控制了模型复杂度。...路漫漫修远兮,吾将上下求索。

2.4K10
您找到你想要的搜索结果了吗?
是的
没有找到

推荐系统提纲笔记

和 item 侧特征各自通过一个 auto-encoder 来学习,交互信息 R 矩阵依然做矩阵分解 U,V。...其中 W1,表示用户侧特征 X 在 auto-encoder 过程 encode 部分,也就是输入到隐层重建,P1 表示是用户特征到交互矩阵 R 映射; W2 表示物品侧特征 Y 在 auto-encoder...这种尝试为后续深度推荐模型发展提供了新思路 缺点 两阶段训练模式,在应用过程不方便,且模型能力受限于FM表征能力上限 FNN专注于高阶组合特征,但是却没有将低阶特征纳入模型 FM中进行特征组合...优点 引入Product层,不依赖预训练FM完成特征交叉 缺点 忽略了低阶特征 代码实现 Wide&Deep:FNN与PNN更多得捕捉高阶交叉特征,忽略了低阶特征。...显然,光有Wide就是个LR模型Deep加入是模型具有很好泛化性能。

42520

每周学点大数据 | No.4算法分析之时间复杂度

王:,这是一个常见误解,算法时间复杂度并不是指一个算法实际运行时间。举个简单例子,要访问一个集合每个数据,这在计算机科学称为遍历。...王:在进行时间复杂度分析时,我们只保留多项式高阶。因为相比最高阶而言,低阶可以被忽略。同时,忽略其中所有常数项系数。...根据前面的约定,忽略多项式低阶,只保留高阶,就是 ;还要忽略常数项系数,就是n2,所以T(n)数量级就是O(n2)。 小可:那么前面的大O表示什么呢? Mr. 王:嗯,这里需要说明一下。...很多时候当n不够大时,时间多项式低阶部分确实没有高阶部分大。比如对于常数较大n2+c,当n比较小时候,c可能会比n2还大,这就不符合c和关于n高阶相比小到可以忽略这个要求。...换句话说,g(n)表示是f(n)上界。n0 存在保障了我们研究范围是n足够大时,它使得高阶可以充分地大于低阶

58390

深度学习在CTR预估应用

本文就近几年CTR预估领域中学术界经典方法进行探究, 并比较各自之间模型设计初衷和各自优缺点。通过十种不同CTR深度模型比较,不同模型本质上都可以由基础底层组件组成。...,对高阶特征学习表达较强,但wide部分表达是缺失模型对于低阶特征表达却比较有限。...(记忆性) wide部分长处在于学习样本高频部分,优点是模型记忆性好,对于样本中出现过高频低阶特征能够用少量参数学习;缺点是模型泛化能力差,例如对于没有见过ID类特征,模型学习能力较差。...总结起来,DCN引入crossnetwork理论上可以表达任意高阶组合,同时每一层保留低阶组合,参数向量化也控制了模型复杂度。...ctr预估领域方法变化层出穷,但万变不离宗,各种模型本质上还是基础组件组合,如何结合自己业务、数据、应用场景去挑选合适模型应用,可能才是真正难点所在。

4.6K271

推荐系统自动化特征工程

构造新特征向量 每个元素对应GBDT 模型某个叶节点。...GBDT 模型能够学习高阶(树深度越深,特征层级就越高)非线性特征交叉,对应树一条路径(用叶节点来表示)就是一组高阶特征交叉。...假设样本有 个特征,FFM二次每个特征都有 个隐向量,FM中所有特征隐向量只有一个。FM可以看做是FFM特例,所有特征都归属到一个域中。...只保留二次,FFM方程如下: FM和FFM通过枚举所有的二阶特征组合,用低维空间中内积去代表两个特征组合,取得了不错效果。...比如我们可以通过FM模型低阶特征进行单独建模。 之后把低阶特征交叉与DNN模型进行整合。二者融合有两种方式:串行结构或并行结构。并行结构是在输出层对高阶部分和低阶部分进行连接。

1.1K20

【技术分享】推荐系统自动化特征工程

构造新特征向量 每个元素对应GBDT 模型某个叶节点。...[ed0dmbgmjd.png] GBDT 模型能够学习高阶(树深度越深,特征层级就越高)非线性特征交叉,对应树一条路径(用叶节点来表示)就是一组高阶特征交叉。...假设样本有nnn个特征,FFM二次每个特征都有n∗fn*fn∗f个隐向量,FM中所有特征隐向量只有一个。FM可以看做是FFM特例,所有特征都归属到一个域中。...只保留二次,FFM方程如下: d.png FM和FFM通过枚举所有的二阶特征组合,用低维空间中内积去代表两个特征组合,取得了不错效果。...所以这个时候embedding就派上用场了,它能够用低维向量对物体进行编码还能保留含义。这里大概介绍几种推荐系统业界常用embedding方法。

2.9K2818

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

尽管如此,越来越多工作表明,基于 Transformer 模型以及神经网络不需要所有拟合参数来保留学到假设。...一般来讲,在训练模型时大规模过度参数化似乎很有帮助,但这些模型可以在推理之前进行大幅剪枝;有研究表明神经网络通常可以去除 90% 以上权重,性能不会出现任何显著下降。...然而,通过进行一定程度降秩后,模型回答可以转变为正确。 为了理解这一点,该研究还探索了其余组件各自编码内容,他们仅使用高阶奇异向量来近似权重矩阵。...这些结果表明,当嘈杂高阶分量与低阶分量组合时,它们相互冲突响应会产生一种平均答案,这可能是不正确。图 1 直观地展示了 Transformer 架构和 LASER 遵循程序。...高阶组件存储什么呢?研究者使用高阶组件近似最终权重矩阵(不像 LASER 那样使用低阶组件来近似),如下图 5 (a) 所示。

21310

R语言实现常用5种分析方法(主成分+因子+多维标度+判别+聚类)

主成分分析经常用减少数据集维数,同时保持数据集对方差贡献最大特征。这是通过保留低阶主成分,忽略高阶主成分做到。这样低阶成分往往能够保留住数据最重要方面。...因而EFA能够将具有错综复杂关系变量综合为少数几个核心因子。...Reading和vocabulary这两个变量于第一因子有关,picture、blocks和maze变量与第二因子有关,general变量于两个因子都有关系。 ?...在Rstats包cmdscale函数实现了经典MDS。它是根据各点欧氏距离,在低维空间中寻找各点座标,尽量保持距离不变。 非度量MDS方法,“距离"不再看作数值数据,只是顺序数据。...R语言多元分析系列之五:聚类分析 聚类分析(Cluster Analysis)是根据“物以类聚”道理,对样品或指标进行分类一种多元统计分析方法,它是在没有先验知识情况下,对样本按各自特性来进行合理分类

6.2K90

【久远讲算法①】什么是时间复杂度

举个现实例子: 小明和小亮去企业面试,hr要求他们用代码实现一个需求,一天之后,两个人交付了各自代码,都能实现hr需求。只有小明被录用了。...时间复杂度常用大O符号表述,不包括这个函数低阶和首系数。使用这种方式时,时间复杂度可被称为是渐近,亦即考察输入值大小趋近无穷时情况。...有以下几个原则: 如果运行时间是常数级(例如:1,2,3,4,6等),则直接用常数1代替表示。 只保留时间函数高阶。 如果最高阶存在,则省去最高阶前面的系数。...这个推算过程即为: 1.保留函数高阶。 即: $5n^3+3n$ $->$ $5n^3$ 2.最高阶存在,则省去最高阶前面的系数。...$T(n) = 3n$ 最高阶为$3n$ ,省去3,则转化为时间复杂度为: $$T(n) = O(n)$$ [O(n)] $T(n) = 5logn$ , 最高阶为 $5logn$,省去系数 5,

32300

互联网广告CTR预估新算法:基于神经网络DeepFM原理解读

CTR是衡量互联网广告效果重要指标。 CTR预估数据特点: 输入包含类别型和连续型数据。...这两部分模型需要不同输入,Wide part部分输入,依旧依赖人工特征工程。 但是,这些模型普遍都存在两个问题: 偏向于提取低阶或者高阶组合特征。不能同时提取这两种类型特征。...DeepFM在Wide&Deep基础上进行改进,成功解决了这两个问题,并做了一些改进,优势/优点如下: 不需要预训练FM得到隐向量 不需要人工特征工程 能同时学习低阶高阶组合特征 FM模块和Deep...好处:模型可以从最原始特征,同时学习低阶高阶组合特征 不再需要人工特征工程。Wide&Deep中低阶组合特征就是同过特征工程得到。...FNN缺点: Embedding参数受FM影响,不一定准确 预训练阶段增加了计算复杂度,训练效率低 FNN只能学习到高阶组合特征。模型没有对低阶特征建模 [PNN] PNN:为了捕获高阶特征。

1.2K20

FNN: Deep Learning over Multi-field Categorical Data

(如LR、FM等)CTR预测方案又被称为基于浅层模型方案,优点是模型简单,预测性能较好,可解释性强;缺点主要在于很难自动提取高阶组合特征携带信息,目前一般通过特征工程来手动提取高阶组合特征。...随着深度学习在计算机视觉、语音识别、自然语言处理等领域取得巨大成功,在探索特征间高阶隐含信息能力也被应用到了CTR预测。...为embedding后向量。它由一次 ? ,二次 ? 组成,其中K是FM中二次向量维度。而后面的 ? 则为神经网络全连接层表示。...而且如果不考虑预训练过程,模型网络结构也没有考虑低阶特征组合。  ...缺点: Embedding 参数受 FM 影响,不一定准确 预训练阶段增加了计算复杂度,训练效率低 FNN 只能学习到高阶组合特征;模型没有对低阶特征建模。

96510

ECCV2020 | RecoNet:上下文信息捕获新方法,比non-local计算成本低100倍以上

值得注意是,在乘法过程,通道维度C被消除,这意味着只表示空间上注意力,通道上注意力被压缩。...在图1展示了非局部non-local网络和RecoNet工作流程,基本思路是先用一系列低阶时序器来收集上下文特征部分信息,然后将它们组合起来,重建精细上下文特征。...受CP分解理论启发,尽管上下文预测是一个高阶问题,但可以将其分为一系列低阶问题,这些低阶问题更易于处理。具体来说,不会直接预测上下文特征,而是会生成片段。...本文模型流程如图2所示,由低阶张量生成模块(TGM),高阶张量重构模块(TRM)和全局池化模块(GPM)组成,以在空间和通道维度上获取全局上下文。...框架流程,主要涉及两个部分,即张量生成模块(TGM)和张量重建模块(TRM)。TGM执行低阶张量生成,TRM通过CP构造理论实现高阶张量重建。

1.3K20

人工智能|卷积及其图像处理运用

1卷积定义 卷积数学定义是两个函数f(x)与g(n-x)在x轴上积分,公式如下: ?...,所以,图像处理时保留图像高阶特征对于提高图像处理精准度十分重要。...在电脑中,图像其实是一个m*n矩阵(这里讨论颜色通道),那么针对于像素点,我们可以使用卷积原理,使用另一个矩阵,将图像低阶特征去除掉,保留和突出图像高阶特征,再根据后续操作,对图像进行分类或者识别...图3.2 卷积效果图 可以看到,图像很多细节通过卷积操作之后已经被去除,只保留了图像高阶轮廓等信息,这样一来,就给计算机省去了很多空间。...这里卷积操作卷积核是已经确定,在一般图像处理,卷积核是根据深度学习自己求出来,需要不断地对模型进行训练,直到处理效果理想。 END

59210

惊人!MIT & 微软| 提出高效LLM剪枝方法LASER:无额外训练,且性能提升30%!

当代Transformer架构实例因其规模巨大限制了它们应用,并且在训练和推理过程需要庞大计算资源。...然而,越来越多研究表明,「基于Transformer模型并不需要所有的拟合参数来保留它们学到知识」。...另外还观察到,LASER对以前正确问题释义具有更高鲁棒性。 此外,本文尝试推理关于高阶分量存储了什么内容,以及它们移除如何提升性能。...然而,在进行了一定程度降维后,模型回答变为正确。 为了解释上述现象,本文了剩余分量独立编码内容;仅使用高阶奇异向量来近似权重矩阵。...实验发现这些分量要么描述了与正确答案相同语义类别的不同响应,要么是通用高频词汇。显然,当嘈杂高阶分量与低阶分量相结合时,它们冲突响应产生了一种“平均答案”,很可能是不正确。

25710

讨厌算法程序员 | 第四章 时间复杂度

增长量级 函数增长量级 上一篇算法分析基础,我们分析了插入排序,知道了最好情况下运行时间为T(n) = an + b,最差情况下运行时间为T(n) = an2 + bn + c。...表达式常量a、b和c(实际上都是依赖每行代码执行时间ci)进一步抽象了每行代码执行时间,凸显出输入规模n与运行时间T关系。...我们知道,当n值很大时,低阶对T贡献就没那么重要了,同时,最重要高阶常量系数对T贡献也没那么重要了。 对于插入排序最差情况来说,当忽略掉低阶以及高阶常数系数,就只剩下了n2。...插入排序最差情况运行时间,可记做T(n) = Θ(n2),其中Θ称作渐进记号,这种简化成为渐进分析。 渐进分析强调是,对于足够大输入,运行时间中倍增常量和低阶被输入规模本身影响所支配。...这是因为Θ是一种紧确性表示,Ο是一种非紧确性、只描述了上限表示。 《算法导论》翻译这个词“紧确”,还是很形象。我再说直白点,就是绘制出函数图形,是否比较“贴合”。

1.1K80

讨厌算法程序员 4 - 时间复杂度

增长量级 函数增长量级 上一篇算法分析基础,我们分析了插入排序,知道了最好情况下运行时间为T(n) = an + b,最差情况下运行时间为T(n) = an2 + bn + c。...表达式常量a、b和c(实际上都是依赖每行代码执行时间ci)进一步抽象了每行代码执行时间,凸显出输入规模n与运行时间T关系。...我们知道,当n值很大时,低阶对T贡献就没那么重要了,同时,最重要高阶常量系数对T贡献也没那么重要了。 对于插入排序最差情况来说,当忽略掉低阶以及高阶常数系数,就只剩下了n2。...插入排序最差情况运行时间,可记做T(n) = Θ(n2),其中Θ称作渐进记号,这种简化成为渐进分析。 渐进分析强调是,对于足够大输入,运行时间中倍增常量和低阶被输入规模本身影响所支配。...这是因为Θ是一种紧确性表示,Ο是一种非紧确性、只描述了上限表示。 《算法导论》翻译这个词“紧确”,还是很形象。我再说直白点,就是绘制出函数图形,是否比较“贴合”。

1.1K30

CIKM21序列推荐|基于区域embedding捕获用户行为偏好

现有的序列推荐方法存在以下问题: 如图所示,用户在不同item上兴趣是呈聚类分布,这里意思是用户可能会对美妆、裙子感兴趣,美妆内部具体item之间他们存在相似性,美妆item和裙子...,h_m]) 低阶序列单元采用自注意力机制进行建模,将序列itemembedding \mathcal{Q}^m=\{q_{i_1},......得到z之后在采用全连接层使特征点之间进行交互,如下式: h_k=Dropout(PReLU(W^1_Nz_k+b_N^1)) 高阶输出单元需要整合历史序列相似行为,并建模用户兴趣集中度。...“向前看”,看历史数据来预测;加入正则之后,我们希望模型也能“向后看”,充分保留序列信息。...在整体学习过程,主要涉及了自注意力机制、相似度求解、通过对比学习构建正则等。

41610

从Wide and Deep、DeepFM到DLRM,现代推荐系统算法研究

MF中使用简单点积将始终将模型限制为学习2度相互作用关系,具有X层神经网络在理论上可以学习更高度相互关系。想想3种都具有互动分类特征,例如男性、青少年和RPG电脑游戏。。...由于具备了学习高阶交互作用能力,我们可以通过将神经网络与众所周知学习低阶交互作用模型——分解机相结合,使我们模型更容易学习1阶和2阶低阶交互作用。...DeepFM DeepFM是FM和深度神经网络混合方法,彼此共享相同输入嵌入层。对原始特征进行转换,以使连续字段由自身表示,分类字段则进行一次独热编码。...DeepFM实际上将FM模型作为核心网络一部分,Wide&Deep并不将点积计算作为实际神经网络一部分,而是事先在特征工程步骤中进行。...这个DLRM方案在某种程度上是DeepFM简化和修改版本,因为它也使用嵌入向量之间点积计算,但它特别试图通过直接通过MLP层强制嵌入分类特征来避免高阶交互。

1.4K10

QuadraNet部署之星 | 从神经元重构到结构和整个模型全面设计

具体来说,Transformer类模型 Q , K 和 V 参数转换过程产生了3 HWC 中间状态, softmax(QK^{T})V 将中间状态作为多于 HW 平方加 HW 平方乘以C个中间状态...这提高了高阶交互和相应计算粒度,从模型架构级别到神经元级别,允许高阶交互更灵活地适应。因此,作者可以利用公式(4)描述神经元级别高阶交互来构建具有公式(3)机制高阶神经网络。...机会与挑战:通过将高阶交互嵌入到神经元级别,普通二次神经元也产生了大小为 W_{q}\in\mathbb{R}^{n\times n} 四次参数空间,参数体积与传统基于神经元模型实现相比,上升到...主要目的是全面解决并优化参数空间膨胀问题,同时保留二次神经元强大高阶神经交互能力。...在传统模型设计,空间方向神经元只占5%,通道方向神经元占95%。在二次设置,专门分析表明了哪种方法更适合二次神经元,如表V所示。

23610
领券