python数据帧无变化时，用均值修复历史数据 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Prophet在R语言中进行时间序列数据预测

您将学习如何使用Prophet（在R中）解决一个常见问题：预测公司明年的每日订单。

02

用Prophet在Python中进行时间序列预测

预测通常被认为是报告的发展。报告可以帮助我们回答，发生了什么事？预测有助于回答下一个逻辑问题，将会发生什么？

01

您找到你想要的搜索结果了吗？

是的

没有找到

Quantopian 入门系列一

本帖讲解第一节 Basic Quantopian Lessons，旨在说明如何使用 Quantopian 的研究环境和回测环境。目录如下：

03

基于爬虫的测试自动化经验分享

之前很难区分自动化测试和测试自动化之间的区别，一直傻傻分不清楚，最近在工作实践中，突然对测试自动化有了深入的理解。

02

如何在 Pandas 中创建一个空的数据帧并向其附加行和列？

Pandas是一个用于数据操作和分析的Python库。它建立在 numpy 库之上，提供数据帧的有效实现。数据帧是一种二维数据结构。在数据帧中，数据以表格形式在行和列中对齐。它类似于电子表格或SQL表或R中的data.frame。最常用的熊猫对象是数据帧。大多数情况下，数据是从其他数据源（如csv，excel，SQL等）导入到pandas数据帧中的。在本教程中，我们将学习如何创建一个空数据帧，以及如何在 Pandas 中向其追加行和列。

03

Capture QinQ Large Packets

最近遇到一个QinQ的问题，总结一下。对QinQ协议的交换机做Span，tcpdump抓包后发现，有一些包大小为1522字节，这些包都被网卡丢掉了。仔细排查后发现，网卡对于>1518的包，统一丢掉处理了。简单的解决办法，就是将网卡的mtu增大，设置为1508或者直接1600，就OK了。事情虽小，但还是有不少知识点的，归纳一下: QinQ 简介 IEEE 802.1ad或称为QinQ、vlan stacking。是一种以802.1Q为基础衍生出来的通讯协定。 QinQ报文有

09

Python 数据科学入门教程：Pandas

大家好，欢迎阅读 Python 和 Pandas 数据分析系列教程。 Pandas 是一个 Python 模块，Python 是我们要使用的编程语言。Pandas 模块是一个高性能，高效率，高水平的数据分析库。

01

Pandas时序数据处理入门

作为一个几乎每天处理时间序列数据的人，我发现pandas Python包对于时间序列的操作和分析非常有用。

02

大促转化率精准预估优化论文随笔记

这是一篇阿里妈妈的论文【KDD’23 | 转化率预估新思路：基于历史数据复用的大促转化率精准预估】常规的销量预测，遇到一些特大事件，直播、大促，一般很难预估得准确。而且现在电商机制也比较多样，预售、平台折扣等。本篇可能适合一些特殊时间点进行转化预测的场景。

03

决策树：一种像人脑一样工作的算法

决策树是用于机器学习最流行的算法之一，尤其对于分类和回归问题。我们每次做决策时大脑都像决策树一样工作。

03

python数据分析——数据的选择和运算

在数据分析中，数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作，正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。

01

数据建模之ODS层命名规范及质量规范

ODS ETL过程临时表按天分区最多保留最近7天分区。 DBSync非去重数据按天分区由应用通过中间层保留历史数据，默认ODS层不保留历史数据。

05

这10个 Python 技能，被低估了

本文最初发表于 Kdnuggets 网站，经原作者 Nicole Janeway Bills 授权，InfoQ 中文站翻译并分享。

03

Python入门操作-时间序列分析

时间序列（或称动态数列）是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。本文我们会分享如何用历史股票数据进行基本的时间序列分析（以下简称时序分析）。首先我们会创建一个静态预测模型，检测模型的效度，然后分享一些用于时序分析的重要工具。

02

Python时间序列分析苹果股票数据：分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化

时间序列是一系列按时间顺序排列的观测数据。数据序列可以是等间隔的，具有特定频率，也可以是不规则间隔的，比如电话通话记录。

00

Python入门之数据处理——12种有用的Pandas技巧

翻译：黄念校对：王方思小编和大伙一样正在学习Python，在实际数据操作中，列联表创建、缺失值填充、变量分箱、名义变量重新编码等技术都很实用，如果你对这些感兴趣，请看下文： ◆ ◆ ◆ 引言 Python正迅速成为数据科学家偏爱的语言——这合情合理。它作为一种编程语言提供了更广阔的生态系统和深度的优秀科学计算库。在科学计算库中，我发现Pandas对数据科学操作最为有用。Pandas，加上Scikit-learn提供了数据科学家所需的几乎全部的工具。本文旨在提供在Python中处理数据的12种方法

05

Pandas 数据分析技巧与诀窍

Pandas是一个建立在NumPy之上的开源Python库。Pandas可能是Python中最流行的数据分析库。它允许你做快速分析，数据清洗和准备。Pandas的一个惊人之处是，它可以很好地处理来自各种来源的数据，比如:Excel表格、CSV文件、SQL文件，甚至是网页。

04

异动分析（一）如何快速进行异常定位

相信大家对这些话应该很熟悉吧，作为一名数据分析师，异动分析是最重要也是最频繁的专题分析场景，狭义上异动分析只涉及指标的异常波动，广义上所有的数据异常都可以归纳到异动分析范畴。本文就给大家介绍下如何快速进行异常定位。

02

NumPy 和 Pandas 数据分析实用指南：1~6 全

在本章中，我们将讨论如何安装和管理 Anaconda。 Anaconda 是一个包，我们将在本书的以下各章中使用。

03

增长黑客AB-Test系统（五）——AB-Test 双样本显著性计算

如下图所示，样本显著性的计算是在试验结尾部分的重要步骤，决定了试验是否有效：

03

读完本文，轻松玩转数据处理利器Pandas 1.0

常用数据科学库 Pandas 刚刚年满十二岁，现在已经发布到 1.0.0 版。首个 Pandas 1.0 候选版本显示出，现在的 Pandas 在遇到缺失值时会接收一个新的标量，遵循语义化版本控制（Semantic Versioning）形成了新的弃用策略，网站也经过了重新设计……

02

Pandas 秘籍：1~5

本章的目的是通过彻底检查序列和数据帧数据结构来介绍 Pandas 的基础。对于 Pandas 用户来说，了解序列和数据帧的每个组件，并了解 Pandas 中的每一列数据正好具有一种数据类型，这一点至关重要。

01

读完本文，轻松玩转数据处理利器Pandas 1.0

常用数据科学库 Pandas 刚刚年满十二岁，现在已经发布到 1.0.0 版。首个 Pandas 1.0 候选版本显示出，现在的 Pandas 在遇到缺失值时会接收一个新的标量，遵循语义化版本控制（Semantic Versioning）形成了新的弃用策略，网站也经过了重新设计……

01

介绍一种更优雅的数据预处理方法！

我们知道现实中的数据通常是杂乱无章的，需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一，它提供了多种对原始数据进行预处理的方法。

03

自用迷你小巧GIF录制工具GifCamV5.5.0 ForWindows纯净无水印

GifCam 是一套相当简单且好用的可将萤幕录制成 GIF 图片的免费应用软体。GifCam 是一款小而美的 GIF 录制软件。她拥有一个迷人的特点 —— 通过将软件置顶在所有窗口之上，你可以像相机一样调整录制区域，移动或缩放窗口。

01

GifCam – 简单好用的 GIF 动画录制软件

GifCam 是一款小而美的 GIF 录制软件。她拥有一个迷人的特点 —— 通过将软件置顶在所有窗口之上，你可以像相机一样调整录制区域，移动或缩放窗口。

02

用一行Python代码创建高级财务图表

今天带大家一起学习一个小众，但很厉害的可视化库mplfinance，一起掌握最灵活的python库来创建漂亮的金融可视化。

03

用Python快速分析和预测股票价格

某天，我的一个朋友告诉我说，实现经济自由的关键是股票投资。虽然这是市场繁荣时期的真理，但如今业余交易股票仍然是一个有吸引力的选择。由于在线交易平台的便利性，涌现了许多自主价值投资者或家庭主妇交易员。甚至还有一些成功的故事和广告吹嘘有“快速致富计划”学习如何投资回报率高达 40% 甚至更高的股票。投资已成为当今职场人士的福音。

04

ODS层设计规范_环境类别二类的保护层厚度是多少

ODS ETL过程临时表按天分区最多保留最近7天分区。 DBSync非去重数据按天分区由应用通过中间层保留历史数据，默认ODS层不保留历史数据。

02

Python探索性数据分析，这样才容易掌握

每个数据科学家都必须掌握的最重要的技能之一是正确研究数据的能力。彻底的探索性数据分析 (EDA， Exploratory Data Analysis) 是必要的，这是为了确保收集数据和执行分析的完整性。

03

SAE J1939 协议简介(二)

在简单介绍完J1939协议后，今天我们来讲讲J1939的数据链路层，熟悉数据链路层是开发任何一种协议软件的基础，数据链路层中的协议数据单元(PDU)格式是非常重要的。 SAE J1939 PDU(P

09

太赞了！30 个 Python 函数，加速你的数据分析处理速度！

Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法，可以加快「数据分析」和「预处理」步骤。

06

2017年12月编程语言排行榜：Kotlin和C成年度编程语言“候选人”

2017年12月编程语言排名出炉 2017年12月编程语言排名出炉！近日，TIOBE 公布了 2017 年 12 月编程语言指数排行榜，排名前三的是 Java、C、C++。排行第一的仍是 Java，拥有13.268%的用户，环比基本无变化，同比下滑 4.59%。世界上最古老的编程语言之一C 语言排名第二。近几年，由于小型软件设备的普及，以及低端软件在汽车行业的增长，C 语言在 2017 年收获了不小的流行度。和Kotlin一起，将成为“2017 年度编程语言”的最佳候选人。 C++稳居第三名。 Pyth

08

长期活跃于期货市场的Aberration

Aberration可以被翻译为“失常、离开正路、越轨”等含义，是一套古老而简单的趋势类突破系统，在众多交易者看来它已经失去盈利空间，但实际上它可以用最简单的方式反馈市场波动，且经过改进之后依然可以作为极好的入门模型。如图3-6所示。

03

如何在交叉验证中使用SHAP？

在许多情况下，机器学习模型比传统线性模型更受欢迎，因为它们具有更好的预测性能和处理复杂非线性数据的能力。然而，机器学习模型的一个常见问题是它们缺乏可解释性。例如，集成方法如XGBoost和随机森林将许多个体学习器的结果组合起来生成结果。尽管这通常会带来更好的性能，但它使得难以知道数据集中每个特征对输出的贡献。为了解决这个问题，可解释人工智能（explainable AI, xAI）被提出并越来越受欢迎。xAI领域旨在解释这些不可解释的模型（所谓的黑匣子模型）如何进行预测，实现最佳的预测准确性和可解释性。这样做的动机在于，许多机器学习的真实应用场景不仅需要良好的预测性能，还要解释生成结果的方式。例如，在医疗领域，可能会根据模型做出的决策而失去或挽救生命，因此了解决策的驱动因素非常重要。此外，能够识别重要变量对于识别机制或治疗途径也很有帮助。最受欢迎、最有效的xAI技术之一是SHAP。

01

用一行Python代码创建高级财务图表

今天带大家一起学习一个小众，但很厉害的可视化库mplfinance，一起掌握最灵活的python库来创建漂亮的金融可视化。

02

1.3 计算机网络体系结构本章小结及疑难点

分布式系统最主要的特点整个系统中的各个计算机最用户都是透明的。用户输入命令就可以运行程序，但用户并不知道是哪一台计算机在为它运行程序。是操作系统为用户选择一台最合适的计算机来运行其程序，并将运行的结果传送到合适的地方。

02

『金融数据结构』「2. 从 Tick 到 Bar」

注意我并有把 open 和 close 翻译成开盘价和收盘价，因为这条数据并不是按日来收集的，而它对应的时间精确到 387 毫秒。

精通 Pandas：1~5

在本节中，我们将讨论使数据分析成为当今快速发展的技术环境中日益重要的工作领域的趋势。

01

Pandas 学习手册中文第二版：1~5

欢迎来到《Pandas 学习手册》！在本书中，我们将进行一次探索我们学习 Pandas 的旅程，这是一种用于 Python 编程语言的开源数据分析库。 pandas 库提供了使用 Python 构建的高性能且易于使用的数据结构和分析工具。 pandas 从统计编程语言 R 中带给 Python 许多好处，特别是数据帧对象和 R 包（例如plyr和reshape2），并将它们放置在一个可在内部使用的 Python 库中。

01

浅谈游戏运营中LTV的计算

上回咱们介绍了《关于移动游戏运营数据指标，这里有一份简单说明，请查收》，不少朋友们看完后留言希望出一期关于LTV的计算和预估科普贴，刚好最近才哥也在做这方面的数据处理。

04

使用 mlxtend 堆浅泛化:预测 NBA MVP

堆栈是一种集成学习技术，通过结合几个更简单模型的优势，构建更具预测性的模型。中心思想是训练几个不同的基础模型，然后将这些预测作为最终元学习者的输入。换句话说，取每个1级模型学习的内容，然后创建一个比任何一个模型更具预测性的新广义学习者（2级模型）。

01

如何搭建增量推荐系统？

尽管我会尽量减少数学术语的使用，但本文希望读者熟悉一些概念，如矩阵分解、嵌入空间以及基本的机器学习术语。这篇文章并不是推荐系统的介绍，而是对它们的增量变体的介绍。在任何情况下，本文的主要受众是机器学习和推荐系统领域的初学者。

03

交换机中的冗余链路管理

许多交换机或交换机设备组成的网络环境中，通常使用一些备份连接，以提高网络的健全性，稳定性。备份连接也叫备份链路，冗余链路等。

03

AB试验（三）一次试验的规范流程

8规则详述： · 流量从上往下流过分流模型 · 域1和域2拆分流量，此时域1和域2是互斥的 · 流量流过域2中的B1层、B2层、B3层时，B1层、B2层、B3层的流量都是与域2的流量相等。此时B1层、B2层、B3层的流量是正交的 · 流量流过域2中的B1层时，又把B1层分为了B1-1，B1-2，B1-3，此时B1-1，B1-2，B1-3之间又是互斥的应用场景 · 如果要同时进行UI优化、广告算法优化、搜索结果优化等几个关联较低的测试实验，可以在B1、B2、B3层上进行，确保有足够的流量 · 如果要针对某个按钮优化文字、颜色、形状等几个关联很高的测试实验，可以在B1-1、B1-2、B1-3层上进行，确保实验互不干扰 · 如果有个重要的实验，但不清楚当前其他实验是否对其有干扰，可以直接在域1上进行，确保实验结果准确可靠

01

业界 | 如何达到Kaggle竞赛top 2%？这里有一篇特征探索经验帖

在数值数据上构建任意监督学习模型的一个重要方面是理解特征。查看模型的部分依赖图可帮助理解任意特征对模型输出的影响。

03

Kaggle如何取得top 2%，这篇文章告诉你！

本文作者 Abhay Pawar 多次参加 Kaggle 竞赛，并在 Instacart Market Basket Analysis 竞赛中拿到 top 2% 的名次。他在多年竞赛中总结出了一套特征探索和构建更好机器学习模型的标准方式，本文将介绍这套方法。

04

业界 | 如何达到Kaggle竞赛top 2%？这里有一篇特征探索经验帖

在数值数据上构建任意监督学习模型的一个重要方面是理解特征。查看模型的部分依赖图可帮助理解任意特征对模型输出的影响。

03

ICCV 2019 | 马里兰&UC 伯克利共同提出：适应不断变化环境进行语义分割

下面要介绍的论文发表于ICCV2019，题为「ACE: Adapting to Changing Environments for Semantic Segmentation」。

01

python数据处理 tips

作者 | June Tao Ching 编译 | VK 来源 | Towards Data Science

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭