Pandas在过滤后的数据集上计算时间增量_在MySQL中使用多个数据集作为过滤器获取过滤后的数据_pandas apply和applymap函数在大型数据集上运行需要很长时间 - 腾讯云开发者社区

azure-data-factory、azure-databricks、delta-lake、azure-data-lake-gen2

我希望有一个源系统的增量加载模式，其中没有审计字段，它说明了记录上次修改的时间。示例:上次修改时间(日期和时间) 但是这些表是用主键和唯一键定义的，当属性发生任何变化时，应用程序都会使用它们来更新记录。现在的问题是，我如何确定Delta的每天，并使用Azure数据工厂/数据库将它们加载到Azure数据湖中。我是否应该转移当天和当天1的全套数据，并使用哈希值确定增量？还是有更好的方法？

浏览 26提问于2020-03-26得票数 2

1回答

如何在不计算整个DataFrame的情况下从Dask DataFrame中提取前五个值？

python、pandas、data-science、dask

晚上好! 我有一个类似的代码，我将粘贴下面，它有更多的数据，但前提是相同的。从这两个DataFrames中，我必须提取前五个值，但是当我处理数以千万计的条目时，我无法承受等待，有时长达一个小时的时间来计算整个DataFrame并返回前五个值。我也不能使用简单的Pandas DataFrames，因为它们超过了我的内存限制。有解决办法吗？ import random import pandas import dask.dataframe as dd import time # Random list from 1 to 10,000,000. random_pool = [random.ran

浏览 1提问于2021-10-28得票数 2

回答已采纳

1回答

这两个Python查询的区别是什么？

pandas

我试图从一些数据中弄清楚，这是Pandas的数据框架： In [1]: import pandas as pd In [2]: df = pd.read_csv('c1.csv')

浏览 0提问于2019-05-12得票数 1

2回答

使用IoT从数据集中检索数据的AWS IoT分析查询

amazon-web-services、aws-iot、aws-iot-analytics

我们可以使用查询，同时检索数据集中的AWS IoT分析，我想要数据之间的两个时间戳。我使用boto3来获取数据。我没有看到在get数据集内容中使用查询的任何选项，下面是boto3代码：response = client.get_dataset_content( datasetName='string', versionId='string' ) 有没有人建议如何使用查询，或者如何在AWS IoT分析中在两个时间戳之间重新排列数据？谢谢你，潘卡杰

浏览 1提问于2018-10-29得票数 1

回答已采纳

3回答

如何只加载AzureML表格数据集的一部分(链接到Azure Blob存储)

python、azure-machine-learning-service

我在我的DataSet工作区中定义了一个AzureML，它链接到一个1.6Gb的文件。此文件包含大约10000台设备的时间序列信息。因此，我还可以创建10000个较小的文件(因为我使用ADF传输管道)。我现在的问题是:是否可以在我的python笔记本或脚本中加载AzureML DataSet的一部分，而不是加载整个文件？我现在已经加载了完整文件的唯一代码： dataset = Dataset.get_by_name(workspace, name='devicetelemetry') df = dataset.to_pandas_dataframe() 我发现的关于Azur

浏览 5提问于2020-04-01得票数 1

回答已采纳

1回答

嵌套循环和df.append的问题

python、pandas、loops、scikit-learn、regression

早上好, 我有以下数据集(由于主数据集是保密的，所以我编造了这个数据集)： country city total_customer total_purchase total_items France Paris 2355231 7848589 84454 Germany Berlin 3211551 5646545 84564 我想对每个国家和城市的组合运行线性回归，并将其输出为最终的熊猫数据帧，如下所示： country city coef1

浏览 31提问于2020-09-24得票数 0

回答已采纳

1回答

从多个pandas数据框列绘制图形

python、pandas、plot

我有一个包含许多列(150)的Pandas数据框，其中140列(第10列到第150列)表示一段时间(通过140天)的天气度值。每列表示不同日期的学位。对于我的数据框中的两行(每行代表一个不同的城市)，我希望绘制所有气象点的趋势，从第一列(第10列)到最后一列(第150列)。我不能设法做到这一点，因为它是数据帧。我应该先创建一个透视表吗？一份清单？你知道如何以一种有效的方式来处理它吗？谢谢

浏览 2提问于2019-04-23得票数 1

1回答

已分区表上的筛选统计和增量统计

sql-server-2014、statistics

我们刚刚在SQL Server 2014中的一个非常大的表上实现了表分区，我们在分区之前对同一表使用了筛选过的统计数据，而不是在我们启用增量统计的表分区之后，但是我们正在考虑创建过滤的统计数据，这将允许更细粒度的统计数据. 此时，我不确定分区表是否可以同时具有过滤的统计数据和增量的统计数据，如果我们实现它，会不会混淆优化器？另外，有人能帮助我如何在分区表上实现过滤的统计数据吗？提前谢谢..。

浏览 0提问于2016-11-21得票数 1

5回答

人工智能:如何在多台机器上训练神经网络？

artificial-intelligence、cloud、neural-network、distributed-computing

因此，对于拥有大量数据集的大型网络，它们需要一段时间来训练。如果有一种方法可以在多台机器之间共享计算时间，那就太棒了。然而，这样做的问题是，当神经网络进行训练时，每次迭代的权重都会不断变化，并且每次迭代或多或少都是基于上一次迭代的--这使得分布式计算的想法至少是一个挑战。我认为对于网络的每个部分，服务器可能会发送1000组数据来训练网络……但是..。你将拥有大致相同的计算时间，因为我不能同时对不同的数据集进行训练(这正是我想要做的)。但是，即使我可以将网络的训练分成不同数据集的块进行训练，我怎么知道我什么时候完成了这些数据集呢？尤其是当发送到客户端机器的数据量不足以实现所需的错误时？我欢

浏览 0提问于2011-04-15得票数 12

回答已采纳

1回答

如何在熊猫数据栏中获得2次之间的值？

python、pandas、dataframe

我有一个数据集，其中date_time列被分隔为日期和时间。因此，在不同的场景中，可以从时间上单独使用日期。但是现在我需要得到5:00到8:00之间的时间值。我只在熊猫的约会时间里找到功能。是否有任何方法只从时间列中获取值？我认为问题的一部分是时间列的数据类型。我尝试移除时间值中的冒号，使5:00变为500。但我仍然无法选择我所需要的价值观。我在“时间”上一直有个关键错误。以下是我迄今所做的尝试： # Get bird sightings between 5-8am. Remove the colon in time first. early_birds_df = france_df[&#

浏览 4提问于2021-11-11得票数 0

回答已采纳

2回答

从具有日期范围的DataFrame创建Pandas每日聚合时间序列

python、pandas、datetime、filter、aggregate

我有一个订阅的Pandas DataFrame，每个订阅都有一个开始日期时间(时间戳)和一个可选的结束日期时间(如果它们被取消了)。为简单起见，我基于开始和结束日期时间(时间戳)为日期(例如"20170901")创建了字符串列。它看起来是这样的： df = pd.DataFrame([('20170511', None), ('20170514', '20170613'), ('20170901', None), ...], columns=["sd", "ed"]) 最终结果应该

浏览 0提问于2017-09-15得票数 2

2回答

用密钥保存数据格式

python、pandas、csv

我试图解析一个csv文件并打印某些时间序列图。关于csv文件的：csv文件包含大量数据，我需要根据循环中的id解析其中的某些部分。csv文件如下所示： ID,name,date,confirmedInfections DE2,BAYERN,2020-02-24,19 . DE2,BAYERN,2020-02-25,19 DE1,BADEN-WÃœRTTEMBERG,2020-02-24,1 . DE1,BADEN-WÃœRTTEMBERG,2020-02-26,7 . DE4,BRANDENBURG,2020-02-24,2 . DE4,BRANDENBURG,2020-07-27,45 关

浏览 8提问于2021-04-16得票数 2

回答已采纳

1回答

将记录组织到类

python、class

我计划为搜索中的一系列加速度记录开发一种遗传算法，以找到与目标的最佳匹配。在这一点上，我的数据像数组一样，具有唯一的ID列，X，Y，Z分量信息在第二列，时间在第三列，依此类推…… 也就是说，每条记录都有几个“属性”。你认为创建一个(记录)类会有好处吗?考虑到我下一步想要用它做一个半复杂的过程？谢谢

浏览 2提问于2016-09-24得票数 1

2回答

MySQL只使用innobackupex恢复增量备份

mysql、percona、backup、xtrabackup

我正在将一个产品迁移到AWS，我们有1.5TB的MySQL数据库。我想把它迁移到AWS，尽可能少的停机时间。我计划实现以下目标。使用Percona XtraBackup innobackupex进行一次完整备份。在AWS节点上还原它。然后，在最终迁移的当天，进行增量备份，并在AWS节点上还原它。所以我的问题是，有可能是这样吗？根据我的研究，不可能只恢复“增量”备份。Percona描述的方式是，我们需要进行完全备份，然后进行增量备份，然后准备备份，并获得一个完全备份，在目的地还原拐杖。

浏览 0提问于2017-06-01得票数 1

4回答

如何计算流数据的变化率(导数)？

math、derivative

我有一个随时间变化趋势的数据流。如何使用C#确定更改率？上微积分课已经很久了，但现在是我第一次真正需要它( 15年来)。现在，当我搜索“衍生品”一词时，我得到的是金融方面的东西，以及其他我认为自己并不真正需要的数学方面的东西。介意给我指个正确的方向吗？

浏览 1提问于2011-01-28得票数 4

回答已采纳

4回答

生成频繁项集对的应用

java、data-mining

我正在做一个应用程序，它将从一组事务中计算所有2个大小的频繁项集。也就是说，应用程序将有一个数据文件(以空格分隔的文本文件-项目编码为整数)和一个百分比作为输入(例如，输入2表示2%)。应用程序将在一个不同的文件中输出同一事务(一个事务由文件中的一行表示)中超过2%的所有事务中一起出现的每对数字(其中2%是输入中给定的百分比)。输出文件将在一行中包含每对项目以及它们的支持(它们出现的事务数量)，应用程序还将(在文件中的屏幕上)输出持续时间(执行任务所需的时间)。数据文件将如下所示 55 22 33 123 231 414 21 43 432 435 231 4324 534 22 21

浏览 0提问于2010-09-26得票数 2

回答已采纳

1回答

当用户发布故事提要时，故事对象不会过期

django、django-models、django-views

当用户发布故事时，我如何设置故事在特定时间到期的时间，我一直在做这个项目，我希望用户能够在一段时间内发布故事馈送，然后将其删除。这是我的故事模型。实际上，我真的不知道如何让用户的帖子故事在某个时间过期，比如在48小时后，帖子应该从故事源中删除。 class StoryManager(models.Manager): def get_queryset(self, *args, **kwargs): return super().get_queryset(*args, **kwargs).filter( expire__lt=Now()

浏览 6提问于2021-09-20得票数 0

回答已采纳

1回答

Pandas复数过滤

python、pandas

我有一个pandas.DataFrame()对象，如下所示 start, end 5, 9 6, 11 13, 11 14, 11 15, 17 16, 17 18, 17 19, 17 20, 24 22, 26 "end“必须总是> "start”，所以我需要从"end“值变成< "start”的时候开始过滤，直到它们再次出现的下一行恢复正常。在上面的示例中，我需要： 1. 13,11 15,17 2. 18,17 20,24 Edit：(更新)将这些视为以秒为单位

浏览 1提问于2015-01-16得票数 0

1回答

ssas维度处理增量

performance、sql-server-2012、ssas、increment、dimension

我有一个很大的维度，它花了我越来越多的时间来处理它。我想尽可能减少处理时间。实际上，有数百篇不同的文章介绍了如何尽可能高效、快速地处理ssas对象。有很多技巧和技巧可以用来加速维度和多维数据集处理。我成功地应用了所有或至少大部分，但我仍然对结果不满意。我在一张桌子上建了一个很大的维度。它有大约6000万条记录，而且还在快速增长。它要么向其中添加新行，要么删除现有行。没有可能的更新我正在寻找一种解决方案，它将允许我执行我的维度的增量处理。我知道上个月的数据不会改变。我想做类似于我的多维数据集分区的smth，但在维度上。我使用的是SLQ SERVER 2012，据我所知，维度分区不受支持。

浏览 2提问于2016-04-03得票数 1

1回答

PriorityQueue正确的数据结构？

java、data-structures、priority-queue

我需要存储具有执行时属性和对执行者(单位)本身的引用的动作对象。当一个单元执行一个动作时，它会随着执行该操作所需的时间被添加到PriorityQueue中。除非该表演者再次出现在列表的第一位，否则不允许它再次执行。我以前从未使用过优先级队列，所以我不知道它的功能。那该怎么做呢？让我们看看以下排序的操作： time:1600 -> unit:1 time:3700 -> unit:2 time:12000 -> unit:3 现在，我希望访问这个数据结构，并将所有这些time属性降低1600个，并使单元一能够再次执行。如果我继续增加时间，我很快就会达到最大值。我可能需要很长时

浏览 1提问于2015-07-24得票数 0

回答已采纳

2回答

Pandas:通过创建索引来加速过滤？

python、pandas

我想把像SQL这样的pandas应用程序用于web应用程序(而不是将数据保存在pSQL中，而只是将其保存在pandas DataFrame中，因为数据不到1 1GB，并且不会经常变化)。如果我基于列上的多个过滤器进行查找(例如，age > x，age < y，income > p，income < q)有什么方法可以加快过滤速度吗？或者它已经在下面完成了。在SQL中，一个人会声明一个关于年龄和收入的索引来加速这样的查询，我想知道pandas做这件事的方式是什么。

浏览 0提问于2013-02-06得票数 3

回答已采纳

1回答

将配置单元结果集转换为多字符分隔的CSV - SelectHiveQl处理器NIFI

java、jdbc、hive、apache-nifi、jdbctemplate

我正在尝试使用selectHiveQL处理器从hive中获取包含10M+记录的大型完整表，我确实发现源代码中的converttoCSVStream()方法比获取结果集所需的时间更长。观察代码:结果集被逐行迭代，然后添加到输出流中。当表很小时，它在几秒钟内完成这个过程，但是当数据很大时，它需要更长的时间。我们有什么方法可以优化转换吗？我已经尝试使用100000/1000/10000/1000的fetch大小。代码如下： while (rs.next()) { //logger.info("+++++++++++++Inside the While loop++++++

浏览 0提问于2018-06-19得票数 0

1回答

如何将多个hdf5文件聚合到一个映像中

python、pandas、hdf5

我有几个(多达几百个) hdf5文件，其中包含并行模拟的结果:每个计算节点创建一个独立的hdf5文件，以避免任何同步问题。有没有任何方法来创建hdf5文件中所有数据的“映像”，比如，这个“映像”看起来像是拥有所有数据，但实际上，它将提供来自其他文件的数据？我要找的是： "data-node0.h5" spike/PopulationA -> pandas data frame columns=[0,3,6,9] "data-node1.h5" spike/PopulationA -> pandas data f

浏览 4提问于2017-10-21得票数 2

1回答

计算柱差中值

excel、dax、powerpivot

我正在追踪很多物品的生产情况。在生产过程中，每个项目我都有大约15个注册点的时间戳。我想要创建一个数据轴，其中包含从x点到y点所需时间的统计信息。简化数据集：比如说我想分析一下从包装到运输所需的时间。我试着创造这样一种方法： PackToShip:=CALCULATE( MEDIAN( Shipped-Packed ); Shipped<>BLANK(); Packed<>BLANK() ) 到目前为止，我只收到这样的错误消息：“中位数函数只接受作为参数1的列引用。” 我知道我可以为每个点的组合创建计算的列，但是对于15分，这是

浏览 0提问于2019-05-08得票数 0

回答已采纳

2回答

如何确定时间序列数据中的多个周期？

python、scipy、time-series、fft、autocorrelation

我的目标是检测在一个时间序列波形中存在的各种季节性和它们的时间周期。我目前正在使用以下数据集：目前，我已经尝试了以下方法： 1) FFT的使用： import pandas as pd import numpy as np from statsmodels.tsa.seasonal import seasonal_decompose #https://www.kaggle.com/rakannimer/air-passengers df=pd.read_csv('AirPassengers.csv') df.head() frequency_eval_max =

浏览 10提问于2022-03-25得票数 1

1回答

kbmMW DXE8更新连接客户端

android、ios、delphi

利用德尔菲XE8企业是否有人有一个示例演示如何使用另一个客户端提交的数据更改自动更新以有状态模式连接到kbmMW服务器的已连接客户端？因此，客户端A更新orders表中的一行或向orders表添加新订单。客户端B、C和D是有状态地连接的，它们的本地数据对象通过客户机A的自动更改由服务器更新？这对kbmMW是可行的吗？是否已经为此提供了一种机制，或者是否需要大量的编码？其次，是否建议在低性能移动设备上更新数据集，以尽量减少或消除GUI更新延迟？我尝试使用泛型方法在后台线程中提取数据，然后设置memtable.disablecontrols，然后通过同步线程将查询结果复制到内存数据集中的

浏览 1提问于2016-01-19得票数 1

回答已采纳

1回答

Pandas对整个数据集进行单行过滤-它是如何实现的？

python、pandas、dataframe

我现在正在研究这个奇妙的库，我对过滤，甚至列操作是如何完成的感到非常困惑，并试图理解这是pandas还是python本身的一个特性。更准确地说： import pandas df = pandas.read_csv('data.csv') # Doing df['Column'] # would display all values from Column for dataframe # Even moreso, doing df.loc[df['Column'] > 10] # would display all values fr

浏览 12提问于2020-07-01得票数 1

回答已采纳

1回答

通过从SQL DB导入的pd Dataframe子集改进性能循环

python、mysql、performance、loops

总的来说，我对python/编码很陌生。有一段时间，我一直在努力编写下面的代码(非常自豪)，但我现在有性能问题--不知道如何解决它们。我的任务是:每个产品都有一个交货时间和一个生产时间戳。生产时间可从交货前1天15:00到交货前30分钟。我想将每一交货小时的生产时间累计到15分钟，并在每段时间内对生产单位执行几个简单操作(并非所有这些操作都是函数构建的) -Volume加权平均价格、总量(和)、标准差等。我的问题是:数据集包含大约1100万个数据点。计算6个月的数值花了我超过24小时。我试图循环执行sql查询，只导入了15分钟的时间，但情况更糟。我的问题是:你认为有什么方法可以提高这个手

浏览 2提问于2017-07-21得票数 0

回答已采纳

1回答

在Elasticsearch中使用function_score时，筛选器是在function_score对象中还是在function_score对象之外是否重要？

performance、elasticsearch

我正在查看一些旧代码，以及是否有必要对其进行重构以提高性能。我的想法是..。使用function_score，您将向所有想要返回的文档应用一个函数，因此，如果只能在所需的文档上运行这些函数，那就更好了。目前，这种方式有点像这样(我已经简化了查询，在这里讨论)： { "query": { "bool": { "must": { "function_score": { "query": { "match_all":

浏览 1提问于2018-11-19得票数 4

回答已采纳

2回答

SQLite还是纯文本文件？

python、sql、database、r、file-format

我处理很多在Python、R和Matlab之间交换的文本/数据。我的选择是纯文本文件，但偶尔也会使用SQLite来存储数据和访问每个程序(虽然还不是Matlab )。我在SQL中不像在R中使用GROUPBY、AVG等操作那么多，所以我不一定需要数据库操作。对于这类需要在程序之间交换数据以利用每种语言的可用库的应用程序，有没有一个好的经验法则来决定使用哪种数据交换格式/方法(即使是XML、NetCDF或HDF5)？我知道在Python -> R之间有rpy或rpy2，但我想知道在更一般的意义上这个问题-我使用许多都没有rpy2的计算机，也使用其他一些在不同时间需要访问数据的科学分析软

浏览 0提问于2010-03-06得票数 8

回答已采纳

2回答

Python :来自多个统计文件的统计信息汇总

python、pandas

我有大约140,000,000条记录的数据集，我已经将其存储在数据库中。我需要使用python计算这些数据的基本统计数据，如平均值、最大值、最小值、标准差。但是当我使用类似于"Select * from Mytable order by ID limit %d offset %d“% (chunksize，offset)这样的块时，执行耗时超过一个小时，并且仍然在执行。引用自由于需要更多时间，现在我决定只读取几条记录，并将使用pandas.describe()获得的统计信息保存到csv中。同样，对于整个数据，我将拥有只包含统计信息的多个csvs。有没有一种方法可以合并这些csvs

浏览 1提问于2016-12-12得票数 2

1回答

我可以定义数据过滤器与取用目录吗？

python、intake

我想要使用取取器不仅链接到已发布的数据集，而且在目录本身中筛选它们。在python中，一旦打开数据，过滤就很简单，但这意味着要提供元数据之外的用户代码，以便提供一些指导。动机:用户通常不像生产者那样熟悉dataset，如果不在python中添加一系列不同的过滤步骤，那么为它们做一些预处理就更好了。如果我们已经打开了一个csv，我们可以过滤:df[df‘’rain‘> 70]，但我在read_csv中没有看到任何关于熊猫或达斯克这样做的论据。

浏览 5提问于2022-04-28得票数 1

回答已采纳

2回答

在visual basic6中使用数据控件和数据源从DBGrid中筛选记录

vb6、controls、dbgrid

我有这个问题，当用户在文本字段中输入信息时，我想过滤网格的结果。实际上我有文本字段，网格(一个DBGrid控件)和数据控件，但是我不知道如何过滤插入了文本字段的网格。

浏览 1提问于2012-03-24得票数 1

1回答

如何使用pandas创建带索引的循环FIFO缓冲区

python、pandas

我正在尝试创建一个带索引的循环先进先出(first in first out)缓冲区，用于保存按分钟聚合的熊猫数据帧(即window_size=150)中一组15个资产的烛台图的最后90分钟，以便在客户端应用程序(蜡笔图)上实时显示。它将分别为每(1m)个时间步长的每个资产保持关闭、打开、高、低和成交量特征。单个烛台将由网络插座更新，从而最新的时间间隔将在每次价格(烛台)变化时更新。在pandas中表示此数据结构的最有效机制是什么，客户端应用程序需要输出形状5, 15 ,90，如as_frame中所示，分别表示关闭、打开、高、低、音量15个资产和90个间隔。因此，数据将表示为： asset

浏览 14提问于2019-02-17得票数 4

回答已采纳

1回答

矩阵分解协同过滤中测试集的预测

python、machine-learning、deep-learning、collaborative-filtering、recommendation-engine

假设我有这样的df userId movieId rating 0 1 31 1 1 1 34 5 2 1 742 2 3 1 1013 4 4 2 31 1 ... 我使用分层抽样来使同一用户在两个列车/测试集中保持一致。在训练数据集时，我通常会初始化用户和电影的嵌入矩阵，并尝试使用SGD学习。在两个矩阵学习后，如P，Q.我采用dot_produc

浏览 12提问于2022-05-16得票数 0

1回答

在PySpark dataframe (铸造代码-存储库环境)中洗牌行

pyspark、palantir-foundry、foundry-code-repositories

在开始对输入文件进行筛选之前，我想对代码存储库中的输入文件进行洗牌。因为Foundry预览只加载前10000行，而且当我在上面应用筛选器时，它将返回0行，因为这些筛选器仅应用于前10000行(而且我确信正在查看的行位于数据集的底部)。我想在数据集被加载到铸造内存的同时洗牌数据集，这样我就可以在筛选器中捕获一些想要的行。我的代码： @transform_df( output=Output("Path_to_output_file"), input_file=Input("path_to_input_file") ) def comput

浏览 3提问于2022-07-29得票数 0

1回答

查询优化器是否使用增量统计？

sql-server、statistics

我正在考虑在数据仓库中使用增量统计数据，但我读到了Erin Stellato的一篇文章，其中说查询优化器不使用增量统计信息。这篇文章写于2015年5月，但在接下来的6年里，我没有看到任何东西改变她的立场。在不同的社区中有许多文章展示了如何设置它，但是如果它没有用，为什么还要费劲呢？有谁知道2016年、2017年或2019年的查询优化器后续版本是否支持增量统计数据的使用？如果没有，我们甚至应该使用它们吗？如果他们不能帮助引擎做出一个好的决定，如何查询一个包含100亿条记录的表，这有什么好处呢？谢谢你的帮助！

浏览 0提问于2021-10-22得票数 0

1回答

什么是“更快”的spyder或jupyter笔记本？

python、jupyter-notebook、spyder

也许对这个地方来说太宽泛了，但我必须在一个带有一些文本处理的大型数据库/dataframe上工作。数据帧以csv的形式存储在我的计算机上。使用spyder或jupyter notebook在运行时间上更快吗？我主要使用：pandas, nltk 结果只是一个csv文件，我必须将其存储在我的计算机上。

浏览 40提问于2019-10-25得票数 1

回答已采纳

2回答

阅读最后N行S3拼花表

python、amazon-web-services、amazon-s3、pyarrow

如果我将讨论过的应用到S3 buck中读取S3 buck中的拼花文件，特别是： import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() pandas_dataframe = pq.ParquetDataset('s3://your-bucket/', filesystem=s3).read_pandas().to_pandas() 当表随着时间的推移越来越大时，我需要定期进行检索，我只想将最后的N行读入数据帧。这个是可能的吗？

浏览 0提问于2021-06-20得票数 4

回答已采纳

3回答

在Python中计算XIRR

python、pandas、numpy

我需要计算一段时间内的金融投资的XIRR。在numpy、pandas或普通的python中有什么函数可以做到这一点吗？原问题中被接受的答案不正确，可以改进。

浏览 5提问于2017-10-10得票数 5

回答已采纳

1回答

显示整个数据集以及子集的值

tableau-api

我有一个数据集，其中包含一年实践中所有约会的各种等待时间指标(签入到回调、回调到结账等)。它包含appt时间(约40个15分钟时段中的一个)，提供者，各种等待时间。我可以让Tableau向我显示，对于每个15分钟的时段，每个提供者在实践中的平均等待时间。我似乎不能做的是显示给定时间段内实践的总体平均值，以便能够将该提供商与“办公标准”进行比较。我刚开始尝试Tableau，所以我确信它是非常简单的东西。提前谢谢。

浏览 1提问于2018-01-04得票数 1

回答已采纳

2回答

为什么Python pandas要将任意的时间信息分配给datetime对象？

python、pandas、datetime、timedelta

Python pandas (0.24.1)向我的datetime对象添加了似乎任意数量的小时、分钟和秒。作为默认行为，这似乎是意想不到的；我希望时间组件默认为午夜(00:00:00)。这是一个bug吗？ import pandas as pd df = pd.DataFrame( {'yr': [2019, 2019], 'mo': [9, 9], 'dy': [25, 26]} ) df['dtime'] = ( pd.to_datet

浏览 0提问于2019-10-23得票数 1

1回答

dataframe列上的日期偏移量

python、pandas、datetimeoffset

我得到了一个Pandas和一个包含datetime64[ns]数据类型的称为过期的列。df.['expiration'][0]给了Timestamp('2010-12-31 00:00:00')。我想从这个专栏中减去一个日历日，但不知道怎么做。我尝试了pandas.tseries.offsets.DateOffset(days=1)，但这使错误不能在日期时间/时间增量操作[<DateOffset: kwds={'days': 1}>]中使用非绝对DateOffset。 THis显然是因为它只在时间索引上工作。所以我试着 import

浏览 2提问于2014-12-08得票数 1

回答已采纳

2回答

如何将机器学习分类方法应用于一维时间序列数据

python、machine-learning、classification

我有IMU数据(加速计、磁力计和陀螺仪)，在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的，我想使用机器学习分类方法来识别信号中的不同练习。我不想将信号压缩成0D峰值，并以这种方式构建我的特征，而是保持时域的完整性。下图显示了包含四个练习的加速度计的示例数据。因此，我的问题是，在这样做时，哪种方法最有效？K-means聚类在0D意义上是完美的，那么有1D等价吗？对python (sklearn)的任何资源都将非常感谢！提前感谢！

浏览 2提问于2018-05-25得票数 2

1回答

如何使复杂查询的结果易于访问？

postgresql

我想运行一些查询，计算特定时间段的时间序列数据上的一些KPI，例如Mai、6月、7月等的KPI。结果应该以某种方式被“存储”，这样就可以使用简单的SQL语句(如SELECT * FROM kpi_for_june或其他同样简单的语句)访问它们。我在想：但是，在物理上将数据存储在新表中，这可能需要一个带有WHERE子句的更复杂的查询。此外，这将使数据库模式更加复杂，我想避免这种情况。每个月都使用带有单独视图的视图，这将导致大量视图，因为需要存储多个KPI。使用函数(我对此没有经验) 有些查询需要1-2个小时才能完成，结果从几行到10.000行不等。Postgres版本为13.8。是否

浏览 0提问于2022-12-30得票数 1

1回答

仅将不同的数据从一个.csv追加到另一个.csv

python、pandas、csv

我已经设法使用Python和speedtest-cli包来运行我的互联网速度的速度测试。我每隔15分钟运行一次，并将结果附加到一个我称为"speedtest.csv“的.csv文件中。然后，我每隔12小时将这个.csv文件通过电子邮件发送给我，这是大量的数据。我只对保持低于13 13mbps下载速度的数据行感兴趣。使用以下代码，我能够过滤这些数据并将其附加到另一个我称为speedtestfilteronly.csv的.csv文件中。 import pandas as pd df = pd.read_csv('c:\speedtest.csv', header=0) d

浏览 1提问于2018-10-02得票数 0

1回答

组合统计通用数据结构

dataset、statistics、algorithms

不确定这是数学，统计还是数据科学，但我想我会在这里张贴它，以使该网站的使用。作为一个程序员，当您实现了一个系统/组件时，您可能希望允许进行一些性能监视。例如，查询函数调用的使用频率、使用时间等等。所以通常你关心的是计数，均值/百分位数，最大/分钟和相似的统计数据。这可以是启动以来的测量，也可以是滚动平均值或窗口。我想知道是否有一个良好的数据结构，可以有效地同时更新，它可以作为大多数查询的源。例如，在不断增加的时间内，有一个汇总度量(计数、和、最小、最大)的环缓冲区，以及定期触发的背景聚合进程。这里的重点(对我来说)是内存中的数据结构，内存消耗有限。(对于其他事情，我会使用RRD类型的库)

浏览 0提问于2014-09-27得票数 1

回答已采纳

2回答

我们应该选择哪种方式来缩短备份时间？

backup、local-area-network、backup-restoration、incremental-backup、rdiff-backup

公司每天为灾难恢复目的对其数据执行完整备份。但是，它们的备份过程不能在指定的备份时间窗口内完成。关于如何调整备份环境以减少备份时间，您会向该公司推荐什么？我们有4位候选人， 1.执行基于局域网的备份 2.每周全备份和每日增量 3.每周全备份和每日累积 4.增加更多的ISL以增加带宽当比较增量备份和累积备份时，增量备份时间肯定比累积备份时间短--我不知道在现有存储系统中允许增加更多的.But，或者这种操作真的能缩短备份时间吗？

浏览 0提问于2013-06-25得票数 -1

2回答

Python Pandas:如何使用CSV文件为每第n行获取一个数据？

python、pandas

数据文件太大了，我只想在特定的时间间隔接收它，以减少解释时间。我使用的是pandas.read_csv。如何才能使每n行只有一行？

浏览 4提问于2020-12-11得票数 1

回答已采纳

1回答

使用CMSIS FIR系数进行抽取似乎不正确

embedded、signal-processing、cmsis

我使用的是OEM ADC IC，其最小采样率为4000Hz。我想通过定制的现有解决方案发送捕获的数据，这些解决方案的参数不打算更改。由于ADC的采样率为4000 by，因此我希望减少发送的样本数量，即抽取(我认为是什么)，在抽取因子4之后，我将有1000 by的样本，然后我可以插回4000 by。我在一秒内收集了32个样本125次，结果是4000赫兹。我从here和其他参考文献中学习了基本的抽取和插值，并使用了CMSIS FIR抽取器和FIR内插器。我将参数设置如下:查看CMSIS decimator和interpolator number of coefficients in the

浏览 24提问于2021-10-15得票数 0