如何将数据集中到不同的值中_根据数据集中的位置将重复项分组到不同的结果中_替换数据集中的值 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

时间序列预测如何变成有监督学习问题？

时间序列预测问题可以作为一个有监督学习问题来解决。

05

教程 | 基于Keras的LSTM多变量时间序列预测

选自machinelearningmastery 机器之心编译参与：朱乾树、路雪长短期记忆循环神经网络等几乎可以完美地模拟多个输入变量的问题，这为时间序列预测带来极大益处。本文介绍了如何在 Keras 深度学习库中搭建用于多变量时间序列预测的 LSTM 模型。诸如长短期记忆（LSTM）循环神经网络的神经神经网络几乎可以无缝建模具备多个输入变量的问题。这为时间序列预测带来极大益处，因为经典线性方法难以适应多变量或多输入预测问题。通过本教程，你将学会如何在 Keras 深度学习库中搭建用于多变量时间

08

您找到你想要的搜索结果了吗？

是的

没有找到

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

来源：机器之心本文长度为2527字，建议阅读5分钟本文为你介绍如何在Keras深度学习库中搭建用于多变量时间序列预测的LSTM模型。长短期记忆循环神经网络等几乎可以完美地模拟多个输入变量的问题，这为时间序列预测带来极大益处。本文介绍了如何在 Keras 深度学习库中搭建用于多变量时间序列预测的 LSTM 模型。诸如长短期记忆（LSTM）循环神经网络的神经神经网络几乎可以无缝建模具备多个输入变量的问题。这为时间序列预测带来极大益处，因为经典线性方法难以适应多变量或多输入预测问题。通过本教程，你

07

70个NumPy练习：在Python下一举搞定机器学习矩阵运算

翻译 | 王柯凝责编 | suisui 【导读】Numpy是一个开源的Python科学计算库，专用于存储和处理大型矩阵，相比Python自身的嵌套列表结构要高效很多，是数据分析、统计机器学习的必备工具。Numpy还是深度学习工具Keras、sk-learn的基础组件之一。此处的70个numpy练习，可以作为你学习numpy基础之后的应用参考。练习难度分为4层：从1到4依次增大。快来试试你的矩阵运算掌握到了什么程度： 1.导入模块numpy并以np作为别名，查看其版本难度：1 问题：导入模块num

04

ApacheHudi使用问题汇总（一）

通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么DeltaStreamer将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编写代码，使用Spark数据源API从自定义源获取数据，并使用Hudi数据源写入Hudi。

02

谷歌教你学 AI-第六讲深度神经网络

翻译/校对: Mika 本文为 CDA 数据分析师原创作品，转载需授权 Google Cloud发布了名为"AI Adventures"的系列视频，用简单易懂的语言让初学者了解机器学习的方方面面。今天让我们来看到第六讲深度神经网络。观看更多国外公开课，点击"阅读原文" 回顾之前内容：谷歌教你学 AI -第一讲机器学习是什么谷歌教你学 AI -第二讲机器学习的7个步骤谷歌教你学 AI -第三讲简单易懂的估算器谷歌教你学 AI -第四讲部署预测模型谷歌教你学 AI -第五讲模型可视化本期视

07

如何重构你的时间序列预测问题

你不必按照原样对你的时间序列预测问题进行建模。

08

Netflix提出梯度提升决策树网络Hammock！

目前神经网络为很多业务带来了巨大的提升，但是对于神经网络的解释性，以及在某些表格数据的效果不如树模型依旧存在很多可以研究的方向，今天就看看Netflix如何基于GBDT的思想来设计梯度提升决策树网络，文章简单，idea也很有启发。大家做数据问题或者竞赛的时候也可以尝试尝试这种方案！

01

生信教程|最大似然系统发育推断

顾名思义，最大似然系统发育推断旨在找到进化模型的参数，以最大化观察手头数据集的可能性。模型参数包括树的拓扑结构及其分支长度，还包括推理中假设的替代模型（例如HKY或GTR）的所有参数。由于当数据集包含多个类群时，这些参数的搜索空间是巨大的，因此所有用于最大似然系统发育推断的现代程序都应用启发式方法来达到最大似然参数组合。

02

使用scikit-learn解释随机森林算法

在以前的一篇博文里，我讨论过如何将随机森林算法转化为一个“白盒”，这样每次预测就能被分解为各项特征的贡献和，即我多次想找相关的代码。然而，绝大多数的随机森林算法库（包括scikit-learn）不暴

打开栅格数据的正确方式

下面的例子打开一副GeoTIFF影像，输出了影像的一些信息，然后遍历了所有波段，输出波段的一些信息

02

最大似然估计(MLE)入门教程

最大似然估计(Maximum Likelihood Estimation)是一种可以生成拟合数据的任何分布的参数的最可能估计的技术。它是一种解决建模和统计中常见问题的方法——将概率分布拟合到数据集。

01

最大似然估计(MLE)入门教程

来源：Deephub Imba 本文约1500字，建议阅读9分钟本文解释了 MLE 的工作原理和方式，以及它与 MAP 等类似方法的不同之处。什么是最大似然估计(MLE) 最大似然估计(Maximum Likelihood Estimation)是一种可以生成拟合数据的任何分布的参数的最可能估计的技术。它是一种解决建模和统计中常见问题的方法——将概率分布拟合到数据集。例如，假设数据来自泊松(λ)分布，在数据分析时需要知道λ参数来理解数据。这时就可以通过计算MLE找到给定数据的最有可能的λ，并将其用作

03

基于YOLOv5的NEU-DET钢材表面缺陷任务，加入CFPNet、动态卷积ODConv、多个检测头提升精度

NEU-DET钢材表面缺陷共有六大类，分别为：'crazing','inclusion','patches','pitted_surface','rolled-in_scale','scratches'

01

三分钟看懂机器学习中应该注意哪些问题？

本文简单谈谈机器学习中应该注意的一些问题。仅供大家参考学习和讨论。 1. 特征预处理机器学习中的输入数据必须是数值类型的，但是现实问题中不免会有一些类别类型的数据，比如性别，颜色，婚姻状况等等，这些类别的数据是无法直接用于机器学习的。那么如何将这类数据转变成数值类型的数据呢？通常可以利用one hot 编码或者标签编码将这类数据变换成数值类型的数据。比如性别，性别可以分为男，女，这种数据可以利用标签编码来将其变换成数值类型的特征，比如男变换成0，女变换成1。如果性别中还包含未知，或者保密，此时可以将数据

归一化vs标准化，哪个更好

众所周知，特征工程是将原始数据转换为数据集的过程。有各种可用的功能工程技术。两种最广泛使用且最容易混淆的特征工程技术是：

02

【GEE】4、 Google 地球引擎中的数据导入和导出

了解动物对环境的反应对于了解如何管理这些物种至关重要。虽然动物被迫做出选择以满足其基本需求，但它们的选择很可能也受到当地天气条件等动态因素的影响。除了直接观察之外，很难将动物行为与天气条件联系起来。在这个单元中，我们将从美洲狮收集的 GPS 项圈数据与通过 GEE 访问的 Daymet 气候数据集的每日温度估计值集成。

02

【Scikit-Learn 中文文档】协方差估计 / 经验协方差 / 收敛协方差 / 稀疏逆协方差 / Robust 协方差估计 - 无监督学习 - 用户指南 | ApacheCN

2.6. 协方差估计许多统计问题在某一时刻需要估计一个总体的协方差矩阵，这可以看作是对数据集散点图形状的估计。大多数情况下，基于样本的估计（基于其属性，如尺寸，结构，均匀性），对估计质量有很大影响。 sklearn.covariance 方法的目的是提供一个能在各种设置下准确估计总体协方差矩阵的工具。我们假设观察是独立的，相同分布的 (i.i.d.)。 2.7. 经验协方差已知数据集的协方差矩阵与经典 maximum likelihood estimator(最大似然估计) （或

05

在Python中如何差分时间序列数据集

差分是一个广泛用于时间序列的数据变换。在本教程中，你将发现如何使用Python将差分操作应用于时间序列数据。完成本教程后，你将学到：关于差分运算，包括延迟差分的配置和差分序列。如何开发手动实现的

04

如何使用 Google 的 AutoAugment 改进图像分类器

通过使用优化的数据增强方法，在CIFAR-10、CIFAR-100、SVHN和ImageNet上得到了目前最好的结果。您可以从这里找到和使用它们。

02

VBA中的高级筛选技巧：获取唯一值

在处理大型数据集时，很可能需要查找并获取唯一值，特别是唯一字符串。例如，在一个有100000条记录的数据集中，其中可能包含数百个唯一字符串，如果将这些唯一记录提取出来，那么数据清理会变得更容易。

01

DDIA 读书分享第六章：分片方式

通常来说，数据系统在分布式系统中会有三级划分：数据集（如 Database、Bucket）——分片（Partition）——数据条目（Row、KV）。通常，每个分片只属于一个数据集，每个数据条目只属于一个分片。单个分片，就像一个小点的数据库。但是，跨分区的操作的，就要复杂的多。

03

70道NumPy 测试题

问题：在不使用硬编码的前提下创建以下模式。仅使用 NumPy 函数和以下输入数组 a。

01

R语言使用 LOWESS技术图分析逻辑回归中的函数形式

当我们在回归模型中包含连续变量作为协变量时，重要的是我们使用正确的（或近似正确的）函数形式。例如，对于连续结果Y和连续协变量X，可能是Y的期望值是X和X ^ 2的线性函数，而不是X的线性函数。一种简单但通常有效的方法是简单地查看Y对X的散点图，以直观地评估。

02

YOLOv8、v7、v5优化：更加聚焦的IoU损失Focaler-IoU | 2024年最新IoU改进

💡💡💡本文独家改进：更加聚焦的IoU损失Focaler-IoU，能够在不同的检测任务中聚焦不同的回归样本，使用线性区间映射的方法来重构IoU损失

01

周期序预测列问题中的朴素模型——周期跟随模型（Seasonal Persistence）

在处理时间序列问题时，人们通常使用跟随算法（将前一个时间单位的观测值作为当前时间的预测值）预测的结果作为预测性能的基准。

07

如何用Python将时间序列转换为监督学习问题

像深度学习这样的机器学习方法可以用于时间序列预测。

在Python机器学习中如何索引、切片和重塑NumPy数组

在Python中，数据几乎被普遍表示为NumPy数组。

09

机器学习入门 11-7 RBF核函数

本系列是《玩转机器学习教程》一个整理的视频笔记。在上一小节详解介绍了什么是核函数，并且以多项式核函数为例介绍了核函数的实际含义。本小节具体来介绍另外一种比较特殊的核函数：高斯核函数，高斯核函数是在SVM算法中使用最多的一种核函数。

03

【任务型对话】任务型对话中的自然语言生成

任务型对话中，一般包含ASR、语义理解、多轮状态追踪、会话策略、自然语言生成（NLG）模块，那么任务型对话中都有哪些生成的方法呢？

03

每日论文速递 | 【ICLR24】用语言模型预测表格Tabular

摘要：深度神经网络（DNNs）的可迁移性在图像和语言处理领域取得了显著进展。然而，由于表格之间的异构性，这种DNN的优势在表格数据预测（例如回归或分类任务）方面仍未充分利用。语言模型（LMs）通过从不同领域提炼知识，具有理解来自各种表格的特征名称的能力，有望成为在不同表格和多样化预测任务之间转移知识的多才多艺的学习者，但它们的离散文本表示空间与表格中的数值特征值不兼容。在本文中，我们介绍了TP-BERTa，这是一个专门针对表格数据预测进行预训练的LM模型。具体而言，一种新颖的相对大小标记化将标量数值特征值转换为精细离散的高维标记，而一种内部特征注意方法则将特征值与相应的特征名称集成在一起。全面的实验证明，我们的预训练TP-BERTa在表格DNNs中表现出色，并且在典型的表格数据领域与梯度提升决策树模型相竞争。

01

用 GPU 加速 TSNE：从几小时到几秒

原标题 | Accelerating TSNE with GPUs: From hours to seconds

03

如何为机器学习索引，切片，调整 NumPy 数组

具体在 Python 中，数据几乎被都被表示为 NumPy 数组。

07

以卖香蕉为例，从4个方面了解SQL的数据汇总

导读：面对一个新数据集时，人们往往会关心数据中的异常值、数据的分布形式、行列之间的关系等。SQL是一种专为数据计算设计的语言，其中已经内置了许多数据汇总函数，也支持用户编写SQL命令实现更为复杂的汇总需求。

03

Apache Hudi初学者指南

客户在使用数据湖时通常会问一个问题：当源记录被更新时，如何更新数据湖？这是一个很难解决的问题，因为一旦你写了CSV或Parquet文件，唯一的选择就是重写它们，没有一种简单的机制可以打开这些文件，找到一条记录并用源代码中的最新值更新该记录，当数据湖中有多层数据集时，问题变得更加严重，数据集的输出将作为下次数据集计算的输入。

02

NumPy能力大评估：这里有70道测试题

选自Machine Learning Plus 作者：Selva Prabhakaran 机器之心编译参与：路雪、刘晓坤本 NumPy 测试题旨在为大家提供参考，让大家可以使用 NumPy 的更多功能。问题共分为四个等级，L1 最简单，难度依次增加。机器之心对该测试题进行了编译介绍，希望能对大家有所帮助。每个问题之后附有代码答案，参见原文。原文链接：https://www.machinelearningplus.com/101-numpy-exercises-python/ 如果你想先回顾一下 Num

06

NumPy能力大评估：这里有70道测试题

原文链接：https://www.machinelearningplus.com/101-numpy-exercises-python/

01

从零开始学推荐系统二：隐语义模型

隐语义模型又可称为LFM（latent factor model），它从诞生到今天产生了很多著名的模型和方法，其中和该技术相关且耳熟能详的名词有pLSA、 LDA、隐含类别模型（latent class model）、隐含主题模型（latent topic model）、矩阵分解（matrix factorization）。本节将对隐含语义模型在Top-N推荐中的应用进行详细介绍，并通过实际的数据评测该模型。

03

Keras中带LSTM的多变量时间序列预测

像长短期记忆（Long Short-Term Memory ) LSTM 递归神经网络这样的神经网络几乎可以完美地模拟多个输入变量的问题。

【论文笔记】An End-to-end Approach for Handling Unknown Slot Values in Dialogue State Tracking

以前的方法通常假设预定义的候选列表，这些方法通常依赖于固定本体上的分类，或通过枚举候选列表分别对每个槽值对进行评分，输出列表中每个值的概率分布，因此不被设计来输出未知槽值。

02

Tensorflow 1.3.0版本的变更概述

尽管距离Tensoflow 1.2.1版本发布才仅仅一个月，但是1.3.0版本中的软件已经发生了很多变化。开发人员可以在Tensorflow的Github页面上找到一个详细的发布报告。本文将列出开发人

07

工业党福利：使用PaddleX高效实现指针型表计读取系列文章（1）

最近在做一个工业巡检的项目，主要涉及的内容是指针型表计的读取。本系列文章主要介绍实现表计读取的全流程开发（立个FLAG，想想真是肝...留下了不争气的眼泪)，其中主要使用的工具为百度开发的PaddleX和Visual studio 2019。

04

CS229 课程笔记之十一：主成分分析

本章我们将介绍另一种降维方法：「主成分分析」法（PCA）。该方法更加直接，只需要特征向量的计算，不需要 EM 求解。

02

基于隐式神经网络NERF的室内激光雷达定位算法

论文：IRMCL: Implicit Representation-based Online Global Localization

02

波恩大学最新开源：基于隐式神经网络NERF的室内激光雷达定位算法

论文：IRMCL: Implicit Representation-based Online Global Localization

03

利用GPU和Caffe训练神经网络

本文为利用GPU和Caffe训练神经网络的实战教程，介绍了根据Kaggle的“奥托集团产品分类挑战赛”的数据进行训练一种多层前馈网络模型的方法，如何将模型应用于新数据，以及如何将网络图和训练权值可视化。 ---- Caffe是由贾扬清发起的一个开源深度学习框架，它允许你利用你的GPU训练神经网络。相对于其他的深度学习框架如Theano或Torch等，Caffe不需要你自己编写算法程序，你只需要通过配置文件来指定网络。显然，这种做法比自己编写所有程序更加节省时间，也将你限制在一定的框架范围内。不过，在大多数情

论文解释：SeFa ，在潜在空间中为 GAN 寻找语义向量

SeFa — Closed-Form Factorization of Latent Semantics in GANs

02

如何为地图数据使用tSNE聚类

在本文中，我会展示如何在经纬度坐标对上使用tSNE来创建地图数据的一维表示。这种表示有助于开发新的地图搜索算法。这对于诸如“这个经纬度坐标是新泽西或者纽约的吗？”或“离我最近的披萨位置在哪里？”这样的查询非常有用。更快的地图搜索对于Uber，Google Maps和Directions，Yelp等公司来说非常有价值。

03

UltrasoundNerveSegmentation2016——超声神经分割

今天将分享超声神经分割完整实现版本，为了方便大家学习理解整个流程，将整个流程步骤进行了整理，并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭