开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何对时间序列测试数据进行预处理以进行分类预测？

问如何对时间序列测试数据进行预处理以进行分类预测？
EN

Stack Overflow用户

提问于 2017-07-13 12:00:14

回答 1查看 863关注 0票数 0

当使用时间序列数据集训练分类器模型时，如果您使用整个训练数据集的最小/最大值进行归一化/缩放，那么您也会考虑未来的值，而在真实场景中，您不会有这些信息，对吧？好的，那么你应该只用你的训练数据来构建你的scaler：

scaler = StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

但是，如果新值与训练值略有不同怎么办？

考虑到这一点，我想是这样的：

scaler = StandardScaler() # or MinMaxScaler()

scaler_train = scaler.fit(X_train)
X_train = scaler_train.transform(X_train)

scaler_full = scaler.fit(X) # X_train + X_test
X_test = scaler_full.transform(X_test)

或者可能只是对训练和测试的平均值和标准差进行平均，以标准化测试输入：

X_train_mean = np.mean(X_train)
X_train_std  = np.std(X_train)
X_train_normalized = (X_train - X_train_mean) / X_train_std

X_test_mean = np.mean(y_test)
X_test_std  = np.std(y_test)

new_mean =  (X_train_mean + X_test_mean) / 2
new_std  =  (X_train_std + X_test_std) / 2

X_test_normalized = (X_test - new_mean) / new_std

与日志(1+x)相同的this log1p solution如何处理(-1;∞)？或者exp normalize呢？

处理这种情况的最佳实践是什么？

machine-learning

TDSQL-CMySQL免费体验

云原生数据库TDSQL-C MySQL 2核4G 免费体验15天

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-13 12:16:21

首先，你应该使用scikit learn的pipelines。这确保了，当您的训练数据适合您的管道时，测试数据中不会有任何data leakage。

你的所有建议都支持数据泄漏，从而导致过度拟合。

但是，我要强调的是，当您将训练数据缩放到-1和1之间时，这不一定适用于您的测试数据。但是，您的分类器/回归通常仍然能够解释这些输入。此外，您使用的是标准定标器，它可以简单地转换为零均值和单位方差。因此，任何足够大/足够小的值仍然是可能的，但不太可能

通常，对于test_set，您只希望有几个点超出该范围。否则，你没有“有代表性地”或随着时间的推移，一些本质上发生了变化的东西。然后你可以重新训练你的算法。但如果算法的泛化性能良好，这也无关紧要。

也许你应该使用cross validation for time-series sampling scheme

移位的对数(而不是通常的对数)通常仅用于允许0个输入值。

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45080001

复制

相关文章

Pandas 查找，丢弃列值唯一的列

python dataframe nan pandas

数据清洗很重要，本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列，简言之，就是某列的数值除空值外，全都是一样的，比如：全0，全1，或者全部都是一样的字符串如：已支付，已支付，已支付…

萝卜

2022/05/12

5.7K0

Pandas 查找，丢弃列值唯一的列

在数据框架中创建计算列

编程算法 python

在Excel中，我们可以通过先在单元格中编写公式，然后向下拖动列来创建计算列。在PowerQuery中，还可以添加“自定义列”并输入公式。在Python中，我们创建计算列的方式与PQ中非常相似，创建一列，计算将应用于这整个列，而不是像Excel中的“下拉”方法那样逐行进行。要创建计算列，步骤一般是：先创建列，然后为其指定计算。

fanjy

2022/04/13

3.8K0

按照A列进行分组并计算出B列每个分组的平均值，然后对B列内的每个元素减去分组平均值

前几天在Python星耀交流群有个叫【在下不才】的粉丝问了一个Pandas的问题，按照A列进行分组并计算出B列每个分组的平均值，然后对B列内的每个元素减去分组平均值，这里拿出来给大家分享下，一起学习。

前端皮皮

2022/08/17

3K0

按照A列进行分组并计算出B列每个分组的平均值，然后对B列内的每个元素减去分组平均值

问与答63：如何获取一列数据中重复次数最多的数据？

Q：如下图1所示，在工作表列A中有很多数据（为方便表述，示例中只放置了9个数据），这些数据中有很多重复数据，我想得到重复次数最多的数据是那个，示例中可以看出是“完美Excel”重复的次数最多，如何获得这个数据？

fanjy

2019/08/20

3.6K0

问与答63：如何获取一列数据中重复次数最多的数据？

如何在 Pandas 中创建一个空的数据帧并向其附加行和列？

dataframe pandas 数据索引语法

Pandas是一个用于数据操作和分析的Python库。它建立在 numpy 库之上，提供数据帧的有效实现。数据帧是一种二维数据结构。在数据帧中，数据以表格形式在行和列中对齐。它类似于电子表格或SQL表或R中的data.frame。最常用的熊猫对象是数据帧。大多数情况下，数据是从其他数据源（如csv，excel，SQL等）导入到pandas数据帧中的。在本教程中，我们将学习如何创建一个空数据帧，以及如何在 Pandas 中向其追加行和列。

很酷的站长

2023/08/11

2930

如何在 Pandas 中创建一个空的数据帧并向其附加行和列？

PBI-基础入门：添加列与新建列（计算列）

bi desktop pivot powerpivot 编辑器

大海：在Power BI里增加列有2种方法，一种是咱们在学Power Query里的“添加列”方法，还有一种是在PowerPivot里的新建“计算列”方法。具体操作方法如下：

大海Power

2021/08/30

7.6K0

Pandas | 如何新增数据列？

在数据分析时，原始数据往往不能满足我们的需求，经常需要按照一定条件创建新的数据列或者修改原有数据列，然后进行后续分析。

生信real

2022/12/20

2.1K0

excel列中相同字符串统计_输入一串字符统计出现次数

https 网络安全 java html

https://jingyan.baidu.com/article/6d704a132ea17328da51ca78.html

全栈程序员站长

2022/09/19

2K0

excel列中相同字符串统计_输入一串字符统计出现次数

如何隐藏table 中的指定列？

如何隐藏table 中的指定列？当页面需要显示的内容太多，而页面宽度又不够，不想内容显示太混乱，常常会将指定的列暂时隐藏掉，那么如何让实现呢？

爱明依

2019/03/12

6.9K0

Python数据分析—时间列的基本操作

比如一个数据框中只有借款人的年龄(类似1994年2月8号)，我们想把这一列转换成具体的岁数，放到模型中使用。

阿黎逸阳

2020/12/11

1.1K0

Python数据分析—时间列的基本操作

R语言第二章数据处理⑤数据框列的转化和计算目录正文

本篇描述了如何计算R中的数据框并将其添加到数据框中。一般使用dplyr R包中以下R函数：

用户1359560

2018/12/25

4.2K0

DAX | 计算列排名

实际应用中一般使用度量值来计算排名，今天小伙伴因为特殊场景需要，必须采用计算列来显示排名。

披头

2020/02/17

2.1K1

awk 列求和计算

awk 索引统计

说明： [分隔符]：一般为“\t”制表符，具体视格式而定 [列数]：统计的列数索引，从1开始

莫斯

2020/09/10

1.5K0

Power Query中如何把多列数据合并？

list table text 表格

解释：第一个List.Range目的是为了固定班级字段；第2个List.Range是为了提取第一组的数据。然后和2个列表进行组合并转成Table格式。

逍遥之

2020/03/23

4.6K0

「R」数据汇总时自动生成多列

https 编程算法网络安全

下面的代码和数据源主要来自：https://stackoverflow.com/questions/51063842/create-multiple-columns-in-summarize，以计算分位数为例。

王诗翔呀

2020/07/03

9480

【R语言】数据框按两列排序

我相信大家经常会使用Excel对数据进行排序。有时候我们会按照两个条件来对数据排序。假设我们手上有下面这套数据，9个人，第二列（score）为他们的考试成绩，第三列（code）为对应的评级。80分以上为优秀，60-80为良，60以下为差。

生信交流平台

2022/09/21

2.3K0

PQ基础-数据转换4：删列、移列、添加索引列

本文通过一个例子，综合体现常用的删列、移列、添加索引列操作方法。数据样式及要求如下：

大海Power

2021/08/31

1.7K0

Power Query如何处理日月年的时间列？

list table text transform

对我们来说可以理解为，日/月/年，但是我们看下导入到Power Query中会如何显示？

逍遥之

2020/03/24

2.9K0

Pandas中求某一列中每个列表的平均值

前几天在Python最强王者交流群【冫马讠成】问了一道Pandas处理的问题，如下图所示。

前端皮皮

2022/08/17

4.9K0

Pandas中求某一列中每个列表的平均值

点击加载更多

相似问题

计数数据帧列R中出现的次数

35

在R中，如何计算特定列的出现次数？

251

如何计算SQL中唯一列和行的出现次数？

26

计算列间出现的次数，并与ID列匹配

111

数据与每列匹配的平均次数

217

活动推荐

提供高质量视频生成与处理服务，效果专业

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例