在大型数据集R上按id检查序列

、、

我需要检查年份的值在大型数据集中是否连续。下面是数据的外观： b <- c(2011,2012,2010, 2009:2011, 2013,2015,2017, 2010,2010, 2011) dat <- data.frame(cbind(它在小数据集上工作得很好。然而，真实的数据集是非常大的200kID，并且需要非常长的时间。我能做些什么来让它更快呢？seqyears <- function(id</e

浏览 24提问于2021-05-07得票数 4

回答已采纳

1回答

用不同的agg方法对不同的栏进行分组

、、

下面是一个场景：我希望按列X分组，并将数字列按“平均值”聚合，一些列按“最后”进行聚合，而将热编码的列按“和”进行聚合。所有的方法都是一样的。由于我们讨论的是314列

浏览 1提问于2019-05-03得票数 0

1回答

在Windows2008 R2上使用Redis实现大型数据集的缓存策略

、

我正在研究是否使用Redis缓存大型数据集。最大的数据集拥有大约500万个对象。虽然每个对象都有唯一的标识符，但客户端从未单独使用它们；聚合和连接操作是在整个数据集上执行的。在这个程度上，我在每个盒子上安装了来自的10个Redis实例-64.2.6.12.1。我在使用ServiceStack的Redis客户端。我已经将数据分割成1000个对象的块(这似乎提供了最

浏览 5提问于2013-06-16得票数 2

2回答

R:快速生成部分序列

、、

我希望基于文本片段的训练来生成文本序列(我以前在中已经这样做了)。我目前的方法是在每个单词上使用一张地图： data <- data_frame(id = c(1,2),word = list(c("E","X","A","M","P","L","E"), c("R","S&

浏览 1提问于2018-06-05得票数 1

回答已采纳

1回答

组合来自两个Mysql表的记录

、

我有两张桌子：id subrecord_of2 14 16 5 id value 1 111与记录和子记录的相应值之和：1 2,4 11,111,2222,222,445 6 666,66列"id“-子为0的记录列"sub“-子记录的列表fe id 2和i

浏览 2提问于2015-04-17得票数 1

回答已采纳

2回答

通过最接近的匹配连接两个数据帧

、、、、

我有两个大型数据集，它们唯一的共享特征是数字时间戳。我想按这个时间戳合并数据帧，但数据收集的频率不完全匹配，所以我需要允许它与最近的可能匹配合并。作为一个简化的示例，下面是一个小数据集，其中包含一个值列、一些事件和一个ID： a<-c("150", "164", "175", "183", "195", "200&quo

浏览 3提问于2021-07-04得票数 1

5回答

按小时在大型数据集上分组

、

我需要保存这些平均值，这样SQL就不必在每个请求上选择所有这些记录。我们能做些什么？

浏览 0提问于2011-05-06得票数 12

4回答

如何在数据不完整时按出生和死亡日期对人员列表进行排序

、、

重要的结果是，Carol在列表中相对于她的死亡日期作为死亡日期进行排序，而不是将死亡日期与出生日期一起排序。如果我合并或以其他方式将出生日期和死亡日期映射在一起，则不起作用。

浏览 0提问于2015-03-29得票数 0

1回答

在JVM内存中缓存大查找表

、、、、

我们有一个历史事务的大型数据集，并且我们有一个系统，该系统需要根据此数据集中的每个历史事务检查新事务。在其他几点上，事务总是被添加到数据集中，并且它们永远不会被驱逐。此外，我们确实通过将数据集拆分到不

浏览 10提问于2015-05-20得票数 2

1回答

通过R中的fread读取一个大型数据集，但只需要一个子集(一个变量等于一些值)

、、、、

我试图在R中读取一个大型数据集(>30G)，但我的笔记本电脑只有16G的RAM。但我所需要的只是这个数据集的一个子集。具体地说，我需要ID (在我的数据集中有一个变量代表这个ID)等于某些值(这些值来自另一个数据集)的所有观测值。如果我有足够的RAM，自然会先读取两个数据文件，然后按公共ID合并。由于内存

浏览 1提问于2019-12-04得票数 1

1回答

在python中加速指数移动平均

、

我发现pandas ewm在处理海量数据时运行非常慢。有没有办法加快速度，或者对指数加权移动平均使用替代函数？

浏览 16提问于2017-03-08得票数 0

回答已采纳

1回答

R使用for循环从一个大型csv文件设置子集并创建较小的csv文件

、

我有一个温度的大型数据集(Csv)，我必须按日期(年)进行子集，以按十年创建5个较小的数据集。因此1960-1969年的数据将是一个较小的csv文件，1970-1979年的数据将是另一个csv文件，等等。我一直在尝试使用for循环来实现这一点IDs<-unique(df$ID) temp <- df[df$ID=

浏览 4提问于2015-11-22得票数 0

1回答

为什么我们说地图减少比传统方法更能解决“纸参考”问题？

、、、、

有人说，当我们希望在纸质引用中进行统计时，map-还原可以比传统方法做得更好，因为传统的方法需要大量的内存/磁盘开关。我不太明白为什么传统的方法不好。假设我只在一台机器(没有集群)上运行map-还原，它是否仍然比传统方法更好地解决了一些问题？谢谢。

浏览 4提问于2016-08-24得票数 1

回答已采纳

2回答

在一个术语下存储大量键值的erlang模块是什么？

关注read performance，我想创建一个术语，比如Orddict或Proplist，其中包含大量(100,000)条目，每个条目都包含一个ID和一个术语值。example: K002 - Term002包含整个集合的结果术语需要从一个函数传递到另一个函数，为了几个计算目的而不将其存储在持久性存储中我还选择在现阶段不使用内存缓存以避免目前的体系结构复杂性，因此我的重点是让所有这些都是简单的密钥搜索。Orddicts是按密钥排序的，与普通的Dict

浏览 1提问于2013-03-16得票数 6

回答已采纳

1回答

如果目标程序集更改，则不使用xmlserializer.dll。

、、

我正在为我的服务生成一个dll序列化程序dll。这是一个大型的网络服务-构建大约需要2分钟。如果基础设施找到具有匹配名称的程序集，则加载程序集，然后基础结构检查XmlSerializerVersionAttribute，以查找已找到的程序集的版本与父程序集的当前版本之间的匹配。如果版本不匹配，则不使用已找到的程序集。相反，将为序列化生成临时程序集。从.Net框架源代码中可以看出，ParentAssemblyId实际<

浏览 2提问于2017-11-21得票数 2

1回答

删除他人的子字符串。

、

我的字符串来自大型自然语言语料库。用树结构？像下面这样的东西？(i)在每个字符串中添加开始和结束标记；(ii)树中的第一个节点为开始；(iii)字符串"big car“->新分支启动-大车端，但当添加"the big car”时

浏览 2提问于2012-09-06得票数 3

2回答

vaex:将列移位n步

、

我正在为监督学习任务准备一个大型的多变量时间序列数据集，我想创建输入特征的时移版本，以便我的模型也能从过去的值中推断出来。在pandas中，有一个shift(n)命令，可以让您按n行移动一列。在vaex中有类似的东西吗？我在vaex文档中找不到任何类似的东西。

浏览 19提问于2020-04-03得票数 2

回答已采纳

2回答

使用FF包创建和重塑R中的大数据的函数

、、、、

我是R和FF包的新手，我试图更好地理解FF如何允许用户使用大型数据集(>4Gb)。我花了相当长的时间在网上搜索教程，但是我能找到的那些基本上都超出了我的想象。我学得最好，所以作为练习，我想知道如何创建一个长格式的时间序列数据集，类似于R内置的"Indometh“数据集，使用任意值。然后我想把它重塑成宽格式。然后，我想将输出保存为csv文件。对于小型数据集</

浏览 3提问于2014-01-31得票数 2

回答已采纳

2回答

SSIS事务-大型记录集

、、

我想知道SSIS如何处理大数据集的事务。我有一个大约150,000行的“大型”数据集，其中的每一行都需要根据业务规则进行验证，作为从临时数据库到实时数据库的ETL的一部分。如果任何记录不符合其业务规则，则任何记录都不应在实时数据库中结束(即回滚事务)。我目前的想法是在</

浏览 3提问于2009-05-28得票数 0

回答已采纳

1回答

在Excel中转换具有标头的大型数据集

、

上面的图像显示了我正在处理的时间序列数据的当前结构。它有许多列的时间序列数据，这些列由标题行中的客户id标识。为了在枢轴表中使用这些数据进行分析，我想将其转换为如下所示的格式：在这里，customer id变成了描述时间序列数据的维度。由于这是一个大型数据集，手动将数据转换为所需格式将是一个巨大的时间接收器。另外，我没有像Pow

浏览 1提问于2015-07-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用不同的agg方法对不同的栏进行分组

在Windows2008 R2上使用Redis实现大型数据集的缓存策略

R:快速生成部分序列

组合来自两个Mysql表的记录

通过最接近的匹配连接两个数据帧

按小时在大型数据集上分组

如何在数据不完整时按出生和死亡日期对人员列表进行排序

在JVM内存中缓存大查找表

通过R中的fread读取一个大型数据集，但只需要一个子集(一个变量等于一些值)

在python中加速指数移动平均

R使用for循环从一个大型csv文件设置子集并创建较小的csv文件

为什么我们说地图减少比传统方法更能解决“纸参考”问题？

在一个术语下存储大量键值的erlang模块是什么？

如果目标程序集更改，则不使用xmlserializer.dll。

删除他人的子字符串。

vaex:将列移位n步

使用FF包创建和重塑R中的大数据的函数

SSIS事务-大型记录集

在Excel中转换具有标头的大型数据集

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐