我最近阅读了一篇名为《使用自动编码器进行异常检测》的文章,在该文中对所生成的数据进行了实验,并且我认为将使用自动编码器进行异常检测这一想法应用于真实世界当中的欺诈检测中,似乎是一个不错的主意。 ?...这样的数据集是相当不平衡的,其中正类(欺诈)数据占所有交易数据的0.172%。 数据挖掘 这虽然是一个非常不平衡的数据集,但是它也是一个很好的例子:对异常或欺诈进行识别验证。...有上图可见,正常数据较为集中,类似于一个圆盘状,而欺诈数据则较为分散。此时,我们将构建一个自动编码器,它具有3层编码器和2层解码器,具体如下: ?...自动编码器将我们的数据编码到一个子空间,并且在对数据进行归一化时将其解码为相应的特征。我们希望自动编码器能够学习到在归一化转换时的特征,并且在应用时这个输入和输出是类似的。...接下来,让我们下载数据并训练自动编码器: df = pd.read_csv('creditcard.csv') x = df[df.columns[1:30]].to_numpy() y =
独热编码,也称为dummy变量,是一种将分类变量转换为若干二进制列的方法,其中1表示属于该类别的行。 ? 很明显,从机器学习的角度来看,它不是分类变量编码的好选择。...这意味着一个变量可以很容易地使用其他变量进行预测,从而导致并行性和多重共线性的问题。 ? 最优数据集由信息具有独立价值的特征组成,而独热编码创建了一个完全不同的环境。...由于目标编码器是一个受监督的方法,它需要X和y训练集。...WoE是另一个度量标准 —— Information Value中的一个关键组件,IV值衡量一个特征如何为预测提供信息。...,或考虑目标变量的编码方法,因此在预测任务中通常是更有效的编码器。
生成建模最常用的两种方法是生成对抗网络(GAN)和可变自编码器(VAE)。在这篇文章中,我将尝试解释可变自动编码器(VAE)背后的原理,以及它是如何生成上述面的数据的。...然而,编码器生成的向量(编码)往往是不规则的、无组织的或不可解释的,因为它的目的只是重构尽可能相似的输入,而本身没有任何约束。因此,它不关心如何编码数据,只要它能完美地重构输入。 ?...变量自动编码器(注意:在真实的训练中,我们不知道每个属性实际上代表什么,属性被标记为更容易理解) ? 现在,由于我们有了每个属性的概率分布,我们可以简单地从分布中抽取任何值来生成一个新的输出。...如何存储分布? 当我知道VAE将潜在变量存储为概率分布时我首先想到的问题是如何存储一个分布。 我们做了一个重要的假设来简化这个过程。我们假设潜在分布总是高斯分布。...对抗式自动编码器(AAE)是一种类似于VAE的方法,但将kl -散度损失替换为对抗式损失,并已用于某些方面,如异常检测。总之,VAE仍然值得研究,并且在某些用例中非常适用。
我们将讨论独热编码、标签编码、二进制编码、计数编码和目标编码,并提供如何使用category_encoders库实现这些技术的示例。在本文结束时,您将很好地了解如何在机器学习项目中处理分类特征。...标签编码易于实现且内存高效,只需一列即可存储编码值。但是,它可能无法准确表示类别的固有顺序或排名,并且某些机器学习算法可能会将编码值解释为连续变量,从而导致不正确的结果。...然后,我们将编码器拟合到数据集的“颜色”列,并将该列转换为其编码值。 独热编码 独热编码是一种将类别转换为数字的方法。...例如,如果我们有一个名为“color”的分类特征和一个二进制目标变量,我们可以将“red”替换为平均目标值 0.3,将“green”替换为 0.6,将“blue”替换为 0.4。...然后,我们创建 TargetEncoder 类的实例,并将“颜色”列指定为要编码的列。我们将编码器拟合到数据集,并使用目标变量作为目标将列转换为其目标编码值。
LLM的参数中隐式包含了大量的概念,相应地,自动编码器也需要非常大的规模,才能涵盖前沿模型中的所有概念。...下游损失:如果将原语言模型残差流中的隐变量替换为自动编码器重建的变量,语言模型的损失表现如何 2. 探测损失:SAE能否恢复我们预期的特征 3....对于自动编码器来说,学习渐进编码意味着通过激活幅度对潜变量进行排序,可以逐步恢复原始向量。...然而,这种差异在使用Multi-TopK时消失,两条曲线几乎重叠,这意味着模型可以在每个token上使用固定或动态数量的潜变量而不会影响重建效果。对于用ReLU训练的自动编码器,两条曲线也重叠。...- 可以进一步研究专家模型(MoE)与自动编码器的结合,这将大大降低自动编码器训练的成本,并使得训练更大规模的自动编码器成为可能。
在这篇文章中,我们将简单介绍什么是VAE,以及解释“为什么”变分自编码器是可以应用在数值类型的数据上,最后使用Numerai数据集展示“如何”训练它。...自编码器由两个主要部分组成: 1)将输入映射为潜在空间的编码器 2)使用潜在空间重构输入的解码器 潜在空间在原论文中也被称为表示变量或潜在变量。那么为什么称为变分呢?...将潜在表示的分布强制转换到一个已知的分布(如高斯分布),因为典型的自编码器不能控制潜在空间的分布而(VAE)提供了一种概率的方式来描述潜在空间中的观察。...均值和方差值用于从相应的正态分布中采样,采样将作为输入到解码器。解码器由也是由一个或多个完全连接的层组成,并输出编码器输入的重建版本。...下图展示了VAE的架构: 与普通自动编码器不同,VAE编码器模型将输出潜伏空间中每个维度的分布特征参数,而不是潜在空间的值。
scMM利用混合专家多模态变分自动编码器来解决数据的复杂性。scMM的伪细胞生成策略弥补了深度学习模型可解释性的不足,并且通过实验发现了与潜在维度相关的多模态调节机制。...捕获非线性潜在结构的一种有效方法是使用变分自动编码器(VAE),该编码器由一对神经网络组成,其中一个将数据编码到潜在空间,另一个将其解码以重建数据分布。...scMM的概念图如图1所示,用于双组学分析的scMM模型由四个神经网络组成,其中每个模态中都有一个编码器-解码器对,z是潜在变量的低维向量集。...编码器用于推断变分后验,解码器计算NB或ZINB分布的参数。scMM使用MoE来分解联合变分后验,以此获得编码两种模态信息的多模态潜在变量。...scMM的一个独特学习过程是用训练编码器来推断潜在变量,这些潜在变量不仅可以为自己的模态重建概率分布,还可以为其他模态重建概率分布。
在稀疏的、独热编码编码数据上构建自动编码器 ? 自1986年[1]问世以来,在过去的30年里,通用自动编码器神经网络已经渗透到现代机器学习的大多数主要领域的研究中。...但是,尽管它们的有效性已经在许多方面得到了证明,但它们在重现稀疏数据方面常常存在不足,特别是当列像一个热编码那样相互关联时。 在本文中,我将简要地讨论一种热编码(OHE)数据和一般的自动编码器。...然后,我将介绍使用在一个热门编码数据上受过训练的自动编码器所带来的问题的用例。...损失函数的问题 所以现在我们已经讨论了自动编码器的结构和一个热编码过程,我们终于可以讨论与使用一个热编码在自动编码器相关的问题,以及如何解决这个问题。...总结 在本文中,我们浏览了一个独热编码分类变量的概念,以及自动编码器的一般结构和目标。我们讨论了一个热编码向量的缺点,以及在尝试训练稀疏的、一个独热编码数据的自编码器模型时的主要问题。
特征类型 类型 举例 处理方式 注意点 连续型 年龄、收入、额度、交易额 数学变换: 对数、指数、平方根等离散化分箱: 决策树、等频、等距 离群点干扰、分母为0的情况 类别型 性别、学历、工作地 独热编码...(one hot encoder)标签编码(labelencoder)目标编码(target encoder)概率平滑目标编码(ProbSmoothing target encoder)归类后编码 类别型的变量不要当做连续变量处理...示例特征: 额度使用率 通讯录中手机号靓号数量 最近一个月内半夜电话通话 优点: 具有强烈的解释性,因为这些特征直接关联业务逻辑。 通常具有不错的稳定性,因为它们基于长期观察到的模式。...哑变量化(One-Hot Encoding) 哑变量化是一种将类别变量转换为一组二进制列的方法,其中一个列对应一个类别。...同时,确保特征的异常处理得当,并且具有高度的业务可解释性,是实现有效特征工程的重要保障。
论文总体结构为: Abstract: 我们提出了一种基于重构概率的异常检测方法 可变自动编码器。...提出基于 VAE 的异常检测算法,并说明其优点:与自动编码器和PCA相比,VAE的优势在于它提供了一个概率度量,而不是作为异常分数的重建误差,我们称之为重建概率。...VAE和自动编码器之间的主要区别是,VAE是一个随机生成模型,可以提供校准的概率,而自动编码器是一个确定性的判别模型,没有概率基础。...由于从隐变量分布中提取了大量样本,这使得重构概率能够考虑隐变量空间的可变性,这是该方法与基于自动编码器的异常检测方法的主要区别之一。可以使用适合数据的输入变量空间的其他分布。...6.8 总结 这篇论文介绍的是使用 reconstruction probability 作为异常值,基本思想就是在一个首先构建一个生产正常值的环境 (即由隐变量所确定的隐变量空间),在这个环境中不管如何
理想情况下,自编码器可以精确重构输入并最小化重构误差。 图11 (a) 自动编码器的基本结构,它将输入窗口压缩为低维表示 (ℎ),然后根据该表示重建输出 ˆ。...(b) 变分自动编码器,接收大小为 的输入窗口。通过压缩它,编码器创建潜在分布。使用来自参数化分布的采样数据作为输入,解码器输出 ˆ 尽可能接近 。...MCMC imputation用于多变量时间序列以进行异常解释,并引入IPS作为分段度量。Buzz采用基于分区分析的对抗训练方法进行异常检测。...预测模型使用下一个时间戳的预测,而重构模型使用整个时间序列的潜在表示。可以使用联合目标函数同时优化两个模型。 自动编码器(AE)。...深度卷积自动编码记忆网络(CAE-M)通过捕捉多传感器时间序列中的时空相关性,对目标分布进行近似,并建模基于标准化数据的广义模式。为降低过拟合,使用带有MMD罚项的深度卷积自动编码器。
通过理论分析和实践结合,我们详细解释了自动编码器的工作原理和数学基础,并通过具体代码示例展示了从模型构建、训练到多平台推理部署的全过程。 关注TechLead,分享AI与云服务技术的全维度知识。...变分自动编码器 定义:变分自动编码器(VAE)是一种统计生成模型,旨在通过学习数据的潜在分布来生成新的样本。 工作原理: 潜在变量模型:通过变分推断方法估计潜在变量的后验分布。...异常检测 定义:异常检测是识别不符合预期模式的数据点的过程。 工作原理:自动编码器能够学习数据的正常分布,然后用于识别不符合这一分布的异常样本。...以下是主要的实战细节总结: 理论与实践结合 我们不仅深入探讨了自动编码器的工作原理和数学基础,还通过实际代码示例展示了如何构建和训练模型。...理论与实践的结合可以增强对自动编码器复杂性的理解,并为实际应用打下坚实基础。 多场景应用 自动编码器的灵活性在许多应用场景中得到了体现,从图像重构到异常检测等。
但是,如果一个简单的library能够完成我们所有的工作,为什么我们数据科学家还会被需要呢? 这就是我们将讨论处理分类特征的部分。 我们可以使用一个热编码来编码我们的分类特征。...▍二进制编码器 二进制编码器是另一种可用于对分类变量进行编码的方法。如果一个列中有多个级别,那么这是一种很好的方法。...一个热编码意味着创建651列,这意味着大量的内存使用和大量的稀疏列。 如果我们使用二进制编码器,我们将只需要像29的10列。...▍哈希散列编码器 可以将哈希散列编码器视为一个黑盒函数,它将字符串转换为0到某个预定值之间的数字。...D.上下车点间的中心纬度和经度 这些是我们新创建的列: ? ? 原因一:结构化数据 ▍自动编码器 有时人们也使用自动编码器来创建自动特征。 什么是自动编码器?
本文是 Kevin Frans 用自己写的实例来讲解变分自编码机,对于自编码机与变分自编码机的工作原理、使用变分自编码机时的优缺点,他都做了特别细心的解释,是了解变分自编码机不可多得的一篇好文。...这一初始向量便是我们的潜在变量。 像我前面那样随机选择潜在变量,明显是个糟糕的做法。在自编码机中,我们加入了一个能自动把原始图像编码成向量的组件。上述解卷积层则能把这些向量“解码”回原始图像。...除了像前面那样从已有图像中编码出潜在向量,我们还不知道如何创造这些向量,也就无法凭空生成任何图像。 这里有个简单的办法。我们给编码网络增加一个约束,迫使它所生成的潜在向量大体上服从于单位高斯分布。...用此相同的逻辑,我们就能在编码器和解码器之间传递潜在变量。对原始图像的编码越有效,我们在高斯分布上所能取样的标准差就越大,直至为1(标准正态分布)。...这一约束迫使编码器变得非常高效,从而能创造出信息丰富的潜在变量。它所提升的泛化能力,让我们随机生成或从非训练图像编码而来的潜在变量,在解码时将能产生更好的结果。 VAE的效果有多好?
本文是Kevin Frans用自己写的实例来讲解变分自编码机,对于自编码机与变分自编码机的工作原理、使用变分自编码机时的优缺点,他都做了特别细心的解释,是了解变分自编码机不可多得的一篇好文。...这一初始向量便是我们的潜在变量。 像我前面那样随机选择潜在变量,明显是个糟糕的做法。在自编码机中,我们加入了一个能自动把原始图像编码成向量的组件。上述解卷积层则能把这些向量“解码”回原始图像。 ?...不过,这里我们想要的是构建一个生成式模型,而非仅仅是“记忆”图像数据的模糊结构。除了像前面那样从已有图像中编码出潜在向量,我们还不知道如何创造这些向量,也就无法凭空生成任何图像。 这里有个简单的办法。...用此相同的逻辑,我们就能在编码器和解码器之间传递潜在变量。对原始图像的编码越有效,我们在高斯分布上所能取样的标准差就越大,直至为1(标准正态分布)。...这一约束迫使编码器变得非常高效,从而能创造出信息丰富的潜在变量。它所提升的泛化能力,让我们随机生成或从非训练图像编码而来的潜在变量,在解码时将能产生更好的结果。 VAE的效果有多好?
cbox-cox变换 cbox-cox变换:自动寻找最佳正态分布变换函数的方法 连续变量离散化 离散化后的特征对异常数据有很强的鲁棒性。比如年龄的离散化:将年龄大于30岁视为1,否则视为0。...类别型特征转换 对离散型的特征进行编码,2种常见方式: 自然数编码(特征有意义):比如衣服的S、M、L、XL等尺码大小,本身就存在一定的大小顺序 独热码(特征无意义):比如红黄绿的颜色类别;类别无顺序...类别相关的统计特征 构造目标编码 count/nunique/ratio等特征 特征交叉组合等 构造目标编码 构造目标编码:使用目标变量(标签)的统计量来对类别特征进行编码;回归问题,可以统计均值、中位数等...X^2=\sum \frac{(A-E)^2} {E} 互信息法 互信息是对一个联合分布中两个变量之间相互影响的度量,也可以用来评价两个变量间的相关性。...不同的分类型特征采用不同的方式: 本身存在大小关系的序数特征:进行自然编码,0-N的自然数 没有大小关系的特征:独热码one-hot;或者频次编码count bin_map = {"TA":2,
背景 降噪自编码器(DAE) 我们可在自编码器(autoencoder)的最简版本之中训练一个网络以重建其输入。...我们现在可以使用对抗网络(它是自编码器的编码器)的生成器产生的损失函数而不是 KL 散度,以便学习如何根据分布 p(z)生成样本。这种修改使我们能够使用更广泛的分布作为潜在代码的先验。...我们将潜在维度分为两部分:第一个 z 类似于上一个例子;隐藏代码的第二部分现在是一个独热向量(one-hot vector)y 表示馈送到自编码器的数字的身份。 ? 监督式对抗自编码器架构。...我们可以修改之前的架构,使得 AAE 产生一个潜在的代码,它由表示类别或标签(使用 Softmax)的向量 y 和连续的潜在变量 z(使用线性层)连接组成。...由于我们希望向量 y 表现为一个独热向量,我们通过使用第二个带有判别器 Dcat 的对抗网络迫使其遵从分类分布。编码器现在是 q(z,y|x)。解码器使用类别标签和连续隐藏代码重建图像。 ?
它的基本思想与上面的统计分析相似,但略有差异。 自动编码器是一种人工神经网络,通过无监督的方式学习有效的数据编码。自动编码器的目的是学习一组数据的表示(编码),通常用于降维过程。...与降维的一层一起,通过学习得到重建层,自动编码器尝试将降维层进行编码,得到尽可能接近于原数据集的结果。...图2:自动编码器网络 在异常检测和状态监控场景中,基本思想是使用自动编码器网络将传感器的读数进行“压缩”,映射到低维空间来表示,获取不同变量间的联系和相互影响。...(与 PCA 模型的基本思想类似,但在这里我们也允许变量间存在非线性的影响) 接下来,用自动编码器网络对表示“正常”运转状态的数据进行训练,首先对其进行压缩然后将输入变量重建。...方法二:人工神经网络 如本文“技术部分”中所写的,第二种方法包括使用自动编码器神经网络来寻找异常点。
变量变换公式之所以流行,是因为它们在正规化流(NFs)的训练和应用中发挥着核心作用。不太为人所知的是,像自动编码器和变分自动编码器这样的瓶颈架构,以及许多其他模型类型,也允许类似的公式。...因此,(6)的行为可以通过在编码后丢弃代码变量z2,并在解码前采样一个新的值z2 ~ N(0, 1)来使用我们的双射流复制。同样,通过在解码前设置z2 = 0,可以获得(3)中自动编码器的行为。...因此,当通过贝叶斯规则隐式定义编码器时,自动确保了自身一致性 可能会让人惊讶的是,众所周知的GMM方程(27)被解释为变量变换公式,但X和Z之间的关系恰恰符合我们对随机编码器/解码器架构的定义。...由于来自同一光纤的点的编码器输出相等,因此我们将光纤解释为编码器的零空间,类似于线性投影的零空间。请注意,编码器表示的伪逆并不是唯一的 - 它必须只是解码器在流形上的精确逆。...5.2 自动编码器 在接下来的讨论中,我们假设自编码器具有已知的编码分布p(Z),因为这是它具有变量变换公式的前提条件。
这意味着一个变量可以很容易地使用其他变量进行预测,导致高维度中出现并行性和多重共线性的问题。 最优数据集由信息具有独立价值的特征组成,但 one-hot 编码创建了一个完全不同的环境。...因此,需要仔细监控 y 变量,以防出现异常值。要实现这个目的,就要使用 category_encoders 库。由于目标编码器是一种有监督方法,所以它同时需要 X 和 y 训练集。...这使异常值的影响趋于平稳,并创建更多样化的编码值。 由于模型不仅要面对每个编码类的相同值,还要面对一个范围值,因此它可以更好地泛化。...WoE 是另一个衡量指标「Information Value」的关键组成部分。该指标用来衡量特征如何为预测提供信息。...,或者是考虑目标变量的编码方法,因此在预测任务中通常是更有效的编码器。
领取专属 10元无门槛券
手把手带您无忧上云