开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何向量化(即删除for循环)这段从时间序列生成离散PDF的代码

要向量化这段从时间序列生成离散PDF的代码，可以使用NumPy库来进行操作。以下是一个示例代码：

import numpy as np

def generate_discrete_pdf(time_series, num_bins):
    # 计算时间序列的最小值和最大值
    min_val = np.min(time_series)
    max_val = np.max(time_series)

    # 将时间序列归一化到0到1之间
    normalized_series = (time_series - min_val) / (max_val - min_val)

    # 将归一化后的时间序列映射到离散的区间
    bin_indices = np.floor(normalized_series * num_bins).astype(int)

    # 统计每个区间的计数
    counts = np.bincount(bin_indices, minlength=num_bins)

    # 计算概率密度函数
    pdf = counts / np.sum(counts)

    return pdf

这段代码使用了NumPy的向量化操作，避免了使用for循环。具体步骤如下：

首先，通过使用np.min和np.max函数，计算时间序列的最小值和最大值，以便将时间序列归一化到0到1之间。
接下来，使用归一化后的时间序列乘以num_bins，并使用np.floor函数向下取整，得到每个时间点所属的离散区间的索引。
使用np.bincount函数统计每个区间的计数，得到每个区间的样本数量。
最后，将每个区间的计数除以总样本数量，得到概率密度函数。

这段代码的优势是使用了NumPy的向量化操作，提高了代码的执行效率。它适用于任何时间序列数据，并且可以根据需要设置离散区间的数量。

腾讯云相关产品和产品介绍链接地址：

腾讯云：https://cloud.tencent.com/
云服务器 CVM：https://cloud.tencent.com/product/cvm
云数据库 CDB：https://cloud.tencent.com/product/cdb
云原生应用引擎 TKE：https://cloud.tencent.com/product/tke
人工智能平台 AI Lab：https://cloud.tencent.com/product/ailab
物联网平台 IoT Hub：https://cloud.tencent.com/product/iothub
移动开发平台 MDP：https://cloud.tencent.com/product/mdp
云存储 COS：https://cloud.tencent.com/product/cos
区块链服务 BaaS：https://cloud.tencent.com/product/baas
腾讯元宇宙：https://cloud.tencent.com/solution/metaverse

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

39亿参数模型公开可用，采样速度7倍提升，残差量化生成图片入选CVPR22

向量量化（Vector quantization，VQ）已经成为自回归（AR）模型生成高分辨率图像的一种基本技术，具体来说，该技术将图像特征图通过 VQ 量化后，再进行光栅扫描等排序，之后将图像表示为离散编码序列...RQ 没有增加编码簿大小，而是使用固定大小的编码簿以从粗到细的方式递归量化特征图。在 RQ 的 D 次迭代之后，特征图表示为 D 个离散编码的堆叠图。...阶段 1：残差量化 VAE 研究者首先介绍 VQ 和 VQVAE 的表达方式，然后提出了 RQ-VAE，它可以在不增加编码簿大小的情况下精确地逼近特征图。他们解释了如何将图像表示为离散码的堆叠图。...考虑到一个向量 z ϵ R^nz，表示 z 的 VQ，这个代码的嵌入离 z 最近，如下公式（1）所示。在将图像编码为离散码图后，VQ-VAE 从编码码图重建原始图像。...在对 RQVAE 提取的代码的进行 AR 建模之后，他们介绍 RQ-Transformer 如何有效地学习离散代码的堆叠图。

4203 0

ICML 2023｜CMU大牛全面总结「多模态机器学习」六大挑战：36页长文+120页PPT，全干货！

新智元报道编辑：LRS 【新智元导读】多模态机器学习领域的六大难题：表征、对齐、推理、生成、迁移和量化。...连续对齐（Continuous Alignment）之前的方法基于一个重要假设，即模态元素已经被分割和离散化。...虽然某些模态存在清晰的分割（如句子中的单词/短语或图像中的对象区域），但在许多情况下，分割边界并不容易找到，如连续信号（如金融或医疗时间序列）、时空数据（如卫星或天气图像）或没有清晰语义边界的数据（如核磁共振图像...虽然大多数方法只关注从多模态数据中生成文本摘要，但也有几个方向探索了生成摘要图像以补充生成的文本摘要。 2....研究人员将近期的工作分为以下两个方面的量化：（1）连接：模态之间如何关联并共享共性；（2）交互：推理过程中模态元素如何交互。 3.

2.8K2 0

Meta开源文本生成音乐大模型，我们用《七里香》歌词试了下

Agostinelli 等人 [2023] 提出使用不同粒度的多个离散标记序列来表示音乐片段，并使用自回归模型的层次结构对其进行建模。...该（语言）模型基于 EnCodec 音频 tokenizer 的量化单元，它从低帧离散表示中提供高保真重建效果。此外部署残差向量量化（RVQ）的压缩模型会产生多个并行流。...自回归模型需要一个离散随机序列 U ∈ {1, . . . , N}^S 和序列长度 S。按照惯例，研究者将采用 U_0 = 0，这是一个确定性的特殊 token，表示序列的开始。...当删除码本索引 k 时（如 V_t），这代表了时间为 t 时所有码本的串联。任意码本交错模式。为了试验此类分解，并准确测量使用不精确分解的影响，研究者引入了码本交错模式。...下表 4 报告了不同模型大小的结果，即 300M、1.5B 和 3.3B 参数模型。正如预期的那样，扩大模型大小可以得到更好的分数，但前提是需要更长的训练和推理时间。

3994 0

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

要对字节等离散时间序列建模，必须通过离散化来逼近 (1) 中的连续时间动态。...这就产生了离散时间隐态 recurrence，每个时间步都有新矩阵 A、B 和 C，即请注意，(2) 类似于循环神经网络的线性版本，可以在语言模型生成过程中以这种循环形式应用。...离散化要求每个输入位置都有一个时间步，即 ∆[k]，对应于的 x [k] = x (t_k)。然后就可以根据 ∆[k] 计算出离散时间矩阵 A、B 和 C。...图 2 展示了 Mamba 如何为离散序列建模。...虽然 MegaByte 通过 patching 大大降低了生成成本，但他们观察到 MambaByte 由于使用了循环生成，在参数相似设置下速度达到了前者的 2.6 倍。

3241 0

AI读心术震撼登顶会！模型翻译脑电波，人类思想被投屏｜NeurIPS 2023

论文细节论文引入了一个新的框架——DeWave，它将离散编码序列集成到开放词汇的脑电图到文本的翻译任务中。 DeWave使用量化变分编码器来派生离散的编码，并将其与预先训练的语言模型对齐。...研究方法 DeWave的整个过程如下图所示，原始EEG特征被矢量化为嵌入的序列，并送到离散的编码中，语言模型基于离散的编码表示形式生成翻译输出。...，其中脑电特征序列E直接矢量化为嵌入序列进行翻译，没有任何事件标记。...这里有两个指导原则：一个是自我重建，训练编码器能力的同时，也从离散编码中重建原始波形；另一个是文本对齐，编码在语义上与词向量对齐。...在缺乏原始脑电波的方法的情况下，通过使用200毫秒的时间窗口和100毫秒的重叠，将整个脑电波分割成序列嵌入，来建立基线（脑电图到文本）。

3391 0

【人体运动生成】开源 | 第一个能够从自然语言或音频序列生成人体动作序列的统一驱动引擎UDE，性能SOTA！

Generation 原文作者：Zixiang Zhou 内容提要生成可控和可编辑的人体动作序列是3D Avatar生成的关键挑战。...很长一段时间以来，生成和动画人体运动一直是一项劳动密集型工作，直到最近才开发和应用了基于学习的方法。然而，这些方法仍然是特定于任务或特定于模式的。...在本文中，我们提出了“UDE”，这是第一个能够从自然语言或音频序列生成人体动作序列的统一驱动引擎。...具体而言，UDE由以下关键组件组成：1)基于VQVAE的运动量化模块，将连续运动序列表示为离散潜码；2)模态不确定transformer编码器，学习将模态感知驱动信号映射到关节空间；3)统一标记transformer...(类似GPT)网络，以自回归方式预测量化潜码指数；4)将运动标记作为输入，并将其解码成具有高多样性的运动序列的扩散运动解码器。

5931 0

3秒克隆你的声音，微软推出DALL-E表亲VALL-E

机器之心报道编辑：rome rome DALL-E 已经能够很好地从文本生成图像，那么如何高效地实现语音合成呢？本文带你看微软最新推出的语音合成模型 ——VALL-E，它的效果将惊掉你的下巴。...有现成的编解码器，可以将离散 token 转换为波形，而无需像在频谱上运行的基于 VQ 的方法那样对声码器训练做额外的工作。它能减少时间步长，提高效率，解决 µ-law 转换中的问题。...对于来自第一个量化器 c_:,1 的离散 token，研究者训练了一个自回归 (AR) 解码器专用语言模型。它建立在音素序列 x 和声音 prompt 条件基础上，并如下公式（1）所示。...对于从第二个到最后一个量化器的离散 token 记为，这样就训练了一个非自回归（NAR）语言模型。 AR 模型和 NAR 模型的结合在语音质量和推理速度之间达到了良好的平衡。...这种情况下，AR 模型是更自然的选择，它具有声学序列长度预测的灵活性。总体而言，C 的预测可以建模为：自回归编解码语言建模自回归语言模型从第一个量化器生成 token。

1.5K2 0

「扩散模型」首篇综述+论文分类汇总，谷歌&北大最新研究

扩散模型在图片生成任务中超越了原SOTA：GAN，并且在诸多应用领域都有出色的表现，如计算机视觉，NLP、波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。...：计算机视觉，NLP、波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化。...前向链的作用是扰动数据，它根据预先设计的噪声进度向数据逐渐加入高斯噪声，直到数据的分布趋于先验分布，即标准高斯分布。反向链从给定的先验开始并使用参数化的高斯转换核，学习逐步恢复原数据分布。...理论的条件很难获得，因此在实践中操作中会导致理论和实践的不匹配。我们应该意识到这种情况并设计适当的扩散模型。 2、从离散时间到连续时间。由于扩散模型的灵活性，许多经验方法可以通过进一步分析得到加强。...通过将离散时间的模型转化到对应的连续时间模型，然后再设计更多、更好的离散方法，这样的研究思路有前景。 3、新的生成过程。

2.8K1 0

深度学习算法优化系列十 | 二值神经网络(Binary Neural Network，BNN)

前言昨天介绍的BinaryConnect提出将浮点权重量化到1bit，提出了完整的量化权重训练/测试流程，并且从带噪声权重的角度来解释了量化权重。...但这种方法还有一个缺点，即并没有对激活函数进行量化，所以Bengio大神在2016年发表了这篇Binary Neural Network，论文原文和代码链接见附录。...这是一个确定式的二值化操作，另外一种方案是随机二值化，即以一定的概率更新值： ? 其中第二种方法比第一种方法更合理，但在实现时，每次生成随机数会非常耗时，所以一般使用第一种方法。...BNN的前向计算测试推理阶段如何前向推理，大致可以分为以下几种方法：使用二值化weight。使用浮点数weight。...可以看到BNN收敛慢很多附录论文原文：https://arxiv.org/pdf/1602.02830.pdf 代码：https://github.com/itayhubara/BinaryNet

2K2 0

7 Papers | AAAI22杰出论文、WSDM22最佳论文；200+文献ViT综述

图 1 展示了视觉 Transformer 的发展里程碑，从图像分类到目标检测，从图片生成到视频理解，视觉 Transformer 展现出了非常强的性能。....pdf 摘要：尽管深度神经网络已经取得了巨大的成功，但我们还没有一个全面的理论来解释这些网络如何工作或如何构造。...RepCONC 联合训练双编码器和乘积量化（PQ）方法来学习离散文档表征，并实现具有紧凑索引的快速近似 NNS。...它将量化建模为一个受约束的聚类过程，这要求文档嵌入围绕量化质心均匀聚类，并支持量化方法和双编码器的端到端优化。...对两个流行的 ad-hoc 检索基准进行的大量实验表明，在多种压缩比设置下，RepCONC 比其他向量量化基准实现了更好的排序效果，它在检索效率、记忆效率和时间效率方面也大大优于现有的各种检索模型。

5222 0

谷歌出品 | TIGER:生成式检索推荐系统

文章链接：https://arxiv.org/pdf/2305.05065.pdf 代码暂未放出，作者会在论文接收后发布 TIGER 的源代码。...4 实验作者进行了详尽的实验，回答以下研究问题：研究问题1：本文提出的框架（TIGER）在序列推荐任务上的表现如何，与基线方法相比如何？...对于这个分析，考虑了来自Amazon Reviews的Beauty dataset。为了模拟新增item，我们从训练数据集中删除5%的测试项。将这些删除的项称为未看到的item。...从训练集中删除这些item可确保不存在关于未看到的item的数据泄漏。...我们注意到，TIGER的推荐指标对这些变化具有鲁棒性。但是，输入序列长度随着更长的ID（即，每个ID的代码字更多）而增加，这使得基于Transformer的序列到序列模型的计算变得更加昂贵。

5111 0

2022人工智能顶会时间序列论文汇总。

CRU的递推计算可以用连续-离散卡尔曼滤波器导出，并且是封闭形式。由此产生的循环架构在隐藏状态和门控机制之间具有时间连续性，可以最佳地集成噪声观测。...研究内容：预测模型的不确定性量化是决策问题的关键。共形预测是一个普遍的和理论上合理的答案。但是，它需要可交换的数据，不包括时间序列。...一句话总结全文：设计了ExpCLR，一种新的对比学习方法，结合了工业或医疗领域特点，即专家特征通常可以从领域专家那里获得。...我们的模型利用独特的Transformer架构将构造序列的拓扑、几何和挤压变化编码到解缠的代码本中。自回归变压器解码器生成的CAD构造序列共享由码本向量指定的某些属性。...然而，在无监督样式设置下，可控序列生成模型的典型训练算法存在训练与推理不匹配的问题，即训练时使用相同的样本作为内容和样式输入，而推理时给出的是不配对的样本。

1.3K3 0

ICML2022丨时间序列论文汇总

CRU的递推计算可以用连续-离散卡尔曼滤波器导出，并且是封闭形式。由此产生的循环架构在隐藏状态和门控机制之间具有时间连续性，可以最佳地集成噪声观测。...研究内容：预测模型的不确定性量化是决策问题的关键。共形预测是一个普遍的和理论上合理的答案。但是，它需要可交换的数据，不包括时间序列。...一句话总结全文：设计了ExpCLR，一种新的对比学习方法，结合了工业或医疗领域特点，即专家特征通常可以从领域专家那里获得。...我们的模型利用独特的Transformer架构将构造序列的拓扑、几何和挤压变化编码到解缠的代码本中。自回归变压器解码器生成的CAD构造序列共享由码本向量指定的某些属性。...然而，在无监督样式设置下，可控序列生成模型的典型训练算法存在训练与推理不匹配的问题，即训练时使用相同的样本作为内容和样式输入，而推理时给出的是不配对的样本。

9683 0

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

其中，将对目标的描述（例如边界框和类标签）表示为离散 token 的序列，并且该研究还训练神经网络来感知图像并生成所需的序列。...具体来说，一个目标被表征为一个由 5 个离散的 token 组成的序列，即 [y_min, x_min, y_max, x_max, c]，其中每个连续的角坐标被均匀地离散为[1, n_bins] 之间的一个整数...在生成 EOS token 时，序列结束。一旦序列生成，它直接提取和反量化了目标描述(即获得预测边界框和类标签)。...序列增强引入的修改如下图 5 所示，详细情况如下：研究者首先通过以下两种方式创建合成噪声目标来增加输入序列: 向现有的地面真值目标添加噪声(例如，随机缩放或移动它们的包围盒) ；生成完全随机的边框...当从生成的序列中提取边界框和类标签时，研究者用在所有真实类标签中具有最高似然的真实类标签替换噪声类标签。他们还使用选定类标签的似然作为目标的排名分数。

2150 0

中科大&微软提出PUT：减少Transformer在图像修复应用中的信息损失

: https://github.com/liuqk3/PUT 论文链接: https://arxiv.org/pdf/2205.05076 一、针对问题本文主要的任务是图像修复，即输入的图片是残缺的...auto-encoder中的encoder会将输入的图片分成独立的图片块，每块独立编码，避免信息交叉影响。Decoder负责从输入的量化的特征重构图片；（2）不量化。...为了避免Transformer中的信息损失，输入到Transformer中的不是离散的token（即索引），而是encoder出来的特征。离散的token只用作Transformer的输出。...然而对于图像修复/生成类的任务，定量的指标很难反应算法的优劣，为此我们提供了大量的可视化结果，分别如图5，6，7，8所示。...另外，采样策略对修复图片的结果影响还是很大的，因此如何设计更加有效的采样策略，是一个值得进一步讨论的问题。

2.3K1 1

语音生成的「智能涌现」：10万小时数据训练，亚马逊祭出10亿参数BASE TTS

研究者应用了额外的损失函数来促进说话人的分离，并使用字节对编码（BPE，Byte-Pair Encoding）压缩生成的语音代码，以减少序列长度，从而使得能够使用 Transformer 对较长的音频进行建模...参考语音条件包括从同一说话人随机选择的语句，该语句被编码为固定大小的嵌入。参考语音嵌入、文本和语音编码被串联成一个序列，该序列由一个基于 Transformer 的自回归模型建模。...，即以增量方式生成语音。...这种最低延迟与基于扩散的解码器形成了鲜明对比，后者需要一次性生成整个语音序列（一个或多个句子），而首字节延迟等于总生成时间。...他们运行了一个基准测试，在 NVIDIA® V100 GPU 上生成 1000 个持续时间约为 20 秒的语句，批大小为 1。

1921 0

2022 Top10自监督学习模型发布！美中两国8项成果霸榜

相比于植被、天空和土豆泥这样难以量化的东西，算法往往更适用于离散的「事物」，比如人和汽车。...与其他自蒸馏方法不同，他们的模型预测来自不同模态的表征。该模型将语音转换为一系列离散代码，用于表示学习。首先，该研究团队使用HuBERT预训练代码模型在离散空间中进行训练。...通过局部和全局知识提炼和对比学习，该算法从离散和异构的本地数据中无偏表示学习。此外，它是一种适应性强的算法，可用作联合学习情境中各种现有自监督算法的附加模块。...TS2Vec 论文链接：https://arxiv.org/pdf/2106.10466.pdf 微软和北京大学提出了一个通用学习框架TS2Vec，用于在任意语义级别中时间序列的表示学习。...该模型在增强的上下文视图中以分层技术执行对比学习，从而为各个时间戳提供强大的上下文表示。结果显示，与最先进的无监督时间序列表示学习相比，TS2Vec模型在性能上有显著改进。

4763 0

【综述专栏】Transformer的9种变体概览

Attention的个数是通过学习权重来量化的，输出则通常是一个加权平均值。...文本序列是一维的，具有明确的时间顺序，因此attention span随着上下文大小的增加而线性增长。然而，如果我们想在图像上使用Transformer，我们还不清楚如何定义上下文的范围或顺序。...encoder-decoder架构保留用于image-conditioned生成： encoder生成源图像的上下文化的每像素信道表示； decoder自回归地生成输出图像，每个时间步每像素一个通道。...的序列上的注意矩阵通常在内存和时间上都需要 ?...的内存和时间； Reformer进行了两种改进：将dot-product的attention替换为locality-sensitive hashing(LSH) attention,这将时间复杂度从

1.8K0 0

2022 Top10自监督学习模型发布！美中两国8项成果霸榜

相比于植被、天空和土豆泥这样难以量化的东西，算法往往更适用于离散的「事物」，比如人和汽车。...与其他自蒸馏方法不同，他们的模型预测来自不同模态的表征。该模型将语音转换为一系列离散代码，用于表示学习。首先，该研究团队使用HuBERT预训练代码模型在离散空间中进行训练。...通过局部和全局知识提炼和对比学习，该算法从离散和异构的本地数据中无偏表示学习。此外，它是一种适应性强的算法，可用作联合学习情境中各种现有自监督算法的附加模块。...TS2Vec 论文链接：https://arxiv.org/pdf/2106.10466.pdf 微软和北京大学提出了一个通用学习框架TS2Vec，用于在任意语义级别中时间序列的表示学习。...该模型在增强的上下文视图中以分层技术执行对比学习，从而为各个时间戳提供强大的上下文表示。结果显示，与最先进的无监督时间序列表示学习相比，TS2Vec模型在性能上有显著改进。

3152 0

何凯明入职 MIT 首次带队提出Diffusion Loss，借鉴扩散模型思想让自回归模型抛弃矢量量化！

w\in\mathbb{r}^{k\times></k 传统观点认为，用于图像生成的自回归模型通常伴随着向量量化标记。作者观察到，尽管离散值空间可以促进表示分类分布，但这并非自回归建模的必要条件。...通过移除向量量化，作者的图像生成器在享受序列建模速度优势的同时，取得了强大的成果。作者希望这项工作将激发在其他连续值领域和应用中使用自回归生成的兴趣。...在这项工作中，作者旨在回答以下问题：“自回归模型与向量量化表示结合是必要的吗？”作者注意到自回归的特性，即“基于前面的标记预测下一个标记”，与值是离散的还是连续的无关。...采样是通过一个反向扩散过程进行的 [24]：。这里从高斯分布中抽取，是时间步的噪声水平。从开始，这个过程产生一个样本，使得 [24]。...作者首先比较了使用扩散损失的连续值标记与使用交叉熵损失的标准离散值标记（表1）。为了公平比较，两个分词器（"VQ-16" 和 "KL-16"）均从LDM代码库[42]下载。

3341 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭