Python -按时间间隔合并数据(R data.table模仿？)

文章/答案/技术大牛

发布

1回答

、、、、

我正在学习python，并且有一个关于按时间集成数据帧的问题。例如，假设我有2个独立的数据帧，时间间隔不规则，但按study_id分组。我想加入彼此相隔2小时内的行。在此之前，我在R中使用了data.table包。下面是此代码的一个示例。date_df2`, units="hours") <= 2 & difftime(`date_df1`, `date_df2`, units="hours

浏览 19提问于2019-03-03得票数 0

3回答

在python中有类似于R data.table的东西吗？

、、

我是一个R用户。我试着把我的R习惯翻译成python。在python中有类似于R data.table的东西吗？

浏览 3提问于2020-08-21得票数 0

1回答

在同一个操作中聚合和连接同一个表- python

、、、

在R中，您可以在一行中轻松地聚合和连接到同一个data.table上。我想知道Python中是否有类似的东西，我可以不用在表上单独聚合，然后合并它。这相当于R：> DT = data.table(Col1 = c('A','A','A','B','B','B'), Col2 = c(1,2,3,

浏览 1提问于2021-08-17得票数 1

回答已采纳

1回答

合并流中重叠区间的摊销复杂性

、、

对于合并数据流中的间隔的问题，一种方法是将每个传入间隔存储在最小堆中(按间隔的开始排序)。如果需要，每个add(interval)都会向堆中添加间隔，并将其与重叠的间隔合并。据说，每个add的复杂度可能比logn差，但摊销时间将被指定为logn。对于为什么这是真的，我无法真正发展出直觉。我知道，如果合并是必要的，add(interval)可能会比logn花费更长的时间，因为我们需

浏览 5提问于2022-04-16得票数 0

回答已采纳

1回答

绘制有约束的时间序列

我有一个很大的数据集，我想绘制zizi与hour的关系图，但只针对每个小时，而变量如下所示： [1] 23 23 23 23 23 23 23 23每个数据之间只有5分钟的间隔。我该怎么做这个图呢？ Thx

浏览 1提问于2016-04-22得票数 0

1回答

参考传递H2O帧

、

我正在处理一个非常大的数据集，我希望尽可能多地将数据保存在H2O中，而不将其带入R。我注意到，每当我将H2O Frame传递给函数时，对框架所做的任何修改都不会在函数之外反映出来。我的数据集是30 My 100 My。因此，希望确保传递它们不会导致内存问题。

浏览 4提问于2016-01-09得票数 0

回答已采纳

1回答

使用R中的data.table在时间戳和时间间隔上合并数据

、

我需要加入两个dataframes (x和y)，条件是x中的时间戳在y中两列的时间间隔内。我使用data.table::foverlaps()实现了这一点，我在这个stackexchange问题中修改了一些代码)，但是为了让它在我的数据上工作，我必须设置key of data.table x如果是这样的话，我们欢迎关于如何完成这个数据合并任务的新想法。library(data.table)x <-

浏览 0提问于2019-07-22得票数 3

回答已采纳

2回答

将Google股票数据中的时间戳转换为适当的日期时间

、、、、

我正在尝试将股票数据中的时间戳从转换为一种更有用的日期时间格式。我使用data.table::fread读取数据1: a1497619800完整的时间戳由前面的“a”表示。就像这样：a1092945600。“a”后面的数字是Unix时间戳。..。没有前导a的数字是“间隔”。因此，例如，下面的<e

浏览 3提问于2017-08-26得票数 2

回答已采纳

2回答

通过最接近的匹配连接两个数据帧

、、、、

我有两个大型数据集，它们唯一的共享特征是数字时间戳。我想按这个时间戳合并数据帧，但数据收集的频率不完全匹配，所以我需要允许它与最近的可能匹配合并。start2", "end2", "start1", "end1", "start2", "end2") c<-c("A","A","A&quo

浏览 3提问于2021-07-04得票数 1

2回答

R时间间隔数据类型

、、

R中是否有时间间隔数据(变量)类型？我有一个带有日期、时间和时间间隔列的CSV文件。datetime列的数据类型可以是POSIXlt，但我不知道如何为另一列设置时间间隔数据类型。这是可能的，或者什么是处理R中时间惰性的最佳方法？CSV文件中的时间间隔值类似于以下<number of days> %H:%M:%S &#

浏览 4提问于2016-08-12得票数 0

回答已采纳

1回答

在data.table中寻找间隔

、、

我有一个data.table A：B = data.table(firmID = c("89031", "89031"), STARTdate = c("20170403"

浏览 0提问于2018-11-26得票数 0

回答已采纳

2回答

R-在时间期限/间隔内合并两个数据集

、

我仍然在学习R，在尝试合并来自两个不同data.table的两个数据集并在时间间隔内匹配它时遇到了困难。1/1/2018 22:30 23:30 目标是将运行在start_time表的"end_time“和”table2_watch“之间的程序合并起来，并每次添加一个人在这段时间间隔内观看的程序。HBO 1/1/2018 22:30

浏览 0提问于2018-07-11得票数 4

回答已采纳

1回答

条件data.table与.EACHI合并

、

我一直在玩更新的data.table条件合并功能，它非常酷。在这种情况下，我有两个表，dtBig和dtSmall，当条件合并发生时，这两个数据集中都有多个行匹配。这里有一个可重复的例子，试图模仿我想要完成的事情。设置环境## install.packages("data.table", type = "source",repos = "

浏览 4提问于2017-04-02得票数 7

回答已采纳

2回答

.&.)在R中

我希望加快R中搜索与table2匹配的表1元素的行#的一小段代码(见下文)。注意，哪个条件有一个&，因为我需要两个元素x&y是相同的，以便选择行。我的数据集很大，这个循环非常慢。

浏览 1提问于2019-01-11得票数 0

回答已采纳

2回答

根据ID将所有数据除以另一个data.frame

我想将SkinTemp数据除以每个ID的最小值：structure(list(id = c("1", "1", "1", "1", "1", "1", "1", "34.754, 20.57, 22.879)), .Names = c("minID", "x"), row.names = c(NA, 6L), class = "data.f

浏览 2提问于2017-01-11得票数 0

回答已采纳

1回答

Group by with data.table using sum

、、

我有一个数据框，我想按用户分组，并求出数量的总和。library(data.table)"dates_d" "user" "p

浏览 34提问于2018-09-13得票数 -1

2回答

将带时间戳的数据与另一个数据集中最近的时间进行匹配。正确矢量化了吗？更快的方式？

、、

我在一个数据帧中有一个时间戳，我试图将其与第二个数据帧中最接近的时间戳进行匹配，以便从第二个数据帧中提取数据。-01 14:06:00 3 7这种方法工作得很好，只是速度非常慢，因为在我的实际应用程序中，引用数据帧相当大

浏览 47提问于2015-06-29得票数 24

回答已采纳

1回答

为什么字典中的数据通过网络在R中的行为与独立的数据from有所不同？

、、、、

我正在使用R内部的网状，并试图将熊猫数据从字典转换为R数据，但我发现转换不起作用，我不知道为什么？我希望能够使用R语法(即$)访问dataframe列。当我在Python中生成一个独立的数据文件并将其返回给R时，我没有问题。在Python中 b=pd.DataFrame(np.ones(a)*x) return['

浏览 1提问于2019-08-21得票数 3

回答已采纳

2回答

使用data.table按组计算和格式化行间时间差

、、

我对data.table的“场景”很陌生，所以如果我的问题过于简单，我很抱歉。我一直处于需要应用一些分析或子集的位置，一些数据按唯一ID分组。通常，每个唯一ID有大约1000行，大约有30个唯一ID。因此，我被建议切换到data.table，而不是试图找出lapply或sapply或plyr包。因此，要采取Time2-Time 1，按个人(在本例中为ID)获取每个连续位置之间的小时和分钟。因为我不理解data.table是如何处理时间的。一旦我将数据分

浏览 3提问于2013-12-12得票数 3

回答已采纳

1回答

使用spark作业写S3和雅典娜进行查询时如何使数据高可用

、、、

我存储了一个数据流，通过firehose传输到S3，并在雅典娜中创建了表来查询这些数据。S3中的数据是根据clientID、date等字段进行分区的。spark作业正在处理这些以固定时间间隔传入的数据。在每次运行时，spark作业获取数据(增量-针对该时间间隔)，将其与S3中该分区中已有的基本数据合并(在存在重复记录的情况下按上次修改时间合并)，

浏览 2提问于2020-02-07得票数 1

点击加载更多