首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Memory-augmented Deep Autoencoder for Unsupervised Anomaly D

深度自编码在异常检测中得到了广泛的应用。通过对正常数据的训练,期望自编码器对异常输入产生比正常输入更高的重构误差,以此作为识别异常的判据。然而,这一假设在实践中并不总是成立。有人观察到,有时自动编码器“概括”得很好,也能很好地重建异常,导致异常的漏检。为了减轻基于自编码器的异常检测的这个缺点,我们建议使用内存模块来增加自编码器,并开发一种改进的自编码器,称为内存增强自编码器,即MemAE。对于给定的输入,MemAE首先从编码器获取编码,然后将其作为查询来检索与重构最相关的内存项。在训练阶段,内存内容被更新,并被鼓励表示正常数据的原型元素。在测试阶段,学习记忆是固定的,从正常数据中选取少量记忆记录进行重构。因此,重建将趋向于接近一个正常的样本。从而增强异常的重构误差,用于异常检测。MemAE没有对数据类型的假设,因此适用于不同的任务。在各种数据集上的实验证明了该备忘录具有良好的泛化性和较高的有效性。

01

利用“分而治之”的对比学习方法来进行大规模细胞表征学习的研究

今天为大家介绍的是来自清华研究大学团队的一篇论文。单细胞RNA测序(scRNA-seq)数据是理解“生命之语”的强大工具,能为各种生物医学任务提供新见解。近来,大规模语言模型(LLMs)开始用于细胞表征学习。但现有基于BERT架构的细胞表征学习方法存在问题,它们产生的嵌入空间不均匀,导致语义表达效率不高。对比学习通过均匀分布嵌入来解决这个问题。然而,对比学习中更大的批量大小能带来更好的表征,但scRNA-seq数据的高维性和LLMs的大参数量限制了其实际应用。为解决这个问题,作者提出了一种新颖的“分而治之”对比学习方法,它能够解耦批量大小和GPU内存大小的关系,用于细胞表征学习。基于这种方法,作者介绍了单细胞语言模型(CellLM),这是一个大规模的细胞表征学习模型,能够处理包含成千上万基因的高维scRNA-seq数据。CellLM拥有超过5000万个参数,利用200万个scRNA-seq数据进行训练,它是首次尝试从正常细胞和癌细胞中学习细胞语言模型。CellLM在所有评估的下游任务中都达到了新的最先进水平。

01

云视角下的视频编码:从虚拟化走向容器化

云计算是一种基于互联网的计算方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。在云计算环境下,软件即服务(SaaS)的虚拟化平台成为主流,视频编码服务也受到影响,逐渐转型。 容器技术为提升云计算性能和效率开辟了新的可能性,非常适合计算复杂度高,可拆分的任务,也为视频编码带来了新的动力与生机。本文首先简单对比了容器技术与传统虚拟化技术,然后介绍了针对视频编码的通用容器化思想并分析其优势。最后,结合某些具体的视频编码应用场景,给出特定的适合的容器化解决方案。 1. 容器与虚拟机的区别 服务端

09

重磅!你每天使用的NumPy登上了Nature!

数组编程为访问、操纵和操作向量、矩阵和高维数组数据提供了功能强大、紧凑且易于表达的语法。NumPy是Python语言的主要数组编程库。它在物理、化学、天文学、地球科学、生物学、心理学、材料科学、工程学,金融和经济学等领域的研究分析流程中起着至关重要的作用。例如,在天文学中,NumPy是用于发现引力波[1]和首次对黑洞成像[2]的软件栈的重要组成部分。本文对如何从一些基本的数组概念出发得到一种简单而强大的编程范式,以组织、探索和分析科学数据。NumPy是构建Python科学计算生态系统的基础。它是如此普遍,甚至在针对具有特殊需求对象的几个项目已经开发了自己的类似NumPy的接口和数组对象。由于其在生态系统中的中心地位,NumPy越来越多地充当此类数组计算库之间的互操作层,并且与其应用程序编程接口(API)一起,提供了灵活的框架来支持未来十年的科学计算和工业分析。

02
领券