创建子数据帧列表的最快方法_“解包”熊猫数据帧的最快方法_R:使用IFELSE的替代方案创建数据帧的最快方法 - 腾讯云开发者社区

python、pandas

我有大量的数据。它包含10年的日期变量(大约3650天)，每天有超过10,000次观测。因此，总行数为36,500,000。我的目标是将多个(大约3650个)子数据帧按日期分组，并将其放入单个列表中。我使用的方式是for-loop，这需要花费很多时间。实际上，在我的电脑规格下，完成这项工作需要大约1个小时。我想找到创建多个子数据帧的最佳(

浏览 21提问于2020-07-17得票数 0

回答已采纳

3回答

如何使用缺失值填充数据帧列表

python、pandas

我有一个包含以下内容的数据帧： colA colBGHI 0.01 和我想要为其创建数据帧的唯一列表： ABCGHI 我需要创建的数据帧应该是： colAcolBDEF 0.00 GHI 0.01 填充我的新数据帧的最快</e

浏览 36提问于2020-10-21得票数 0

回答已采纳

2回答

Pyspark替换Spark dataframe列中的字符串

python、apache-spark、pyspark

我想通过替换子字符串在Spark Dataframe列上执行一些基本的词干提取。做这件事最快的方法是什么？id address2 10 bar lane会变成 id address

浏览 0提问于2016-05-05得票数 54

回答已采纳

1回答

我在解析来自GET命令的响应时遇到了问题。我们的目标是获得一个数据框，其中的每一列都对应于返回的每一列。生成响应的代码如下所示，只是缺少wosliteKey的值。RDS格式的响应数据是here。我使用以下两个命令将响应转换为json类型文件 jsonRespText <- content(response, "text") j <- fromJSON(jsonRespText) 这会产生一个包含一

浏览 21提问于2019-05-12得票数 1

1回答

将数据帧列表另存为python中的文件

python、dataframe、save

假设list_dfs是许多数据帧的列表。将此列表作为文件保存在存储设备上并再次读取它的最快方法是什么？

浏览 0提问于2019-09-27得票数 0

1回答

python通过列表创建具有一行的数据框

python、list、pandas、dataframe

在python中，假设我有一个列表1,2,3，...,100，我想使用这个列表来创建一个数据帧，它有一行，行值是列表。最快、最优雅的方式是什么？

浏览 0提问于2015-03-16得票数 16

回答已采纳

1回答

有没有一种通过列表理解来迭代两个数据帧的更快方法？

pandas、dataframe、list-comprehension

我有两个数据帧，一个包含屏幕名称/显示名称，另一个包含个人，我正在尝试创建第三个数据帧，每次屏幕名称/显示名称中出现姓氏时，在新行中包含来自每个数据帧的所有数据。从功能上讲，这将创建一个可能匹配的名称列表。我当前的代码运行得很好，但运行速度非常慢，如下所示：# cols

浏览 0提问于2016-04-11得票数 1

1回答

行绑定列表中包含的多个数据帧

有没有一种方法可以用很少的代码行绑定列表中包含的多个数据帧并最大限度地减少内存使用？ super_list包含20个子列表，每个列表包含100个数据帧。我想创建100个数据帧，每个都是由行绑定20个数据帧组成，每个数据帧来自super_list的每个子<em

浏览 7提问于2019-06-28得票数 1

1回答

向从列表构建的熊猫数据框添加行的最快方法是什么？

python、pandas、dataframe、optimization、list-comprehension

我正在尝试创建twitter数据的数据框架。使用twitter API，我有一个作为列表(tweets)的twitter对象列表，并希望使用来自这些twitter对象的各种信息填充一个数据帧，并对文本使用一些其他函数。我当前的方法对每个列使用列表理解，每次迭代所有tweet。当我增加tweet的数量时，速度变得非常慢。我还研究了另外两种

浏览 10提问于2021-02-05得票数 1

1回答

在大列表中查找重复子列表

python、list、sequence、repeat、sublist

我有一个很大的子列表(大约)。16000)，我想知道重复模式从哪里开始和结束。我不是100%肯定有重复，但我有很强的理由相信，由于对角线出现在子列表序列中。子列表的结构是首选的，因为它被用于本脚本中的其他内容。', etc 我没有任何时间限制，但最快的方法是不会皱眉的。代码应该能够返回列表中的

浏览 5提问于2016-07-19得票数 0

2回答

pandas Dataframe中列表上的“'Where子句”

python、pandas、dataframe

我有一个名为df的熊猫数据帧：___________________________email1email.com | [2,1]email1@email.com | [0,0]我想从df中检索具有0列表的所有行

浏览 3提问于2014-09-30得票数 3

回答已采纳

1回答

如何拆分已拆分的数据文件名并保存在R中的多个文件夹中

我已经将我的数据框架分割成100个数据框架，如下所示。每个tibble中有10个变量，包括class_name。创建一个名为每个tibble的文件夹，并将每个tibble重新拆分为class_names并保存为分离的CSV的最佳方法是什么。我已经尝试过几个lapply的组合(finction(X)，paste0())，但是失败了。因此，假设拆分的数据文件是这样的： MyDF

浏览 1提问于2019-10-22得票数 0

回答已采纳

1回答

如果你对寻找哪个子字符串有限制，你能在比O(N^2)更快的时间内找到一个字符串的所有子字符串吗？

algorithm、recursion、substring、big-o、trie

查找字符串的所有可能子字符串的最快方法是O(N^2)。但是，如果我们假设我有一个单词列表，而我不想看某个字符串x是否包含该单词列表中的子字符串，那么这是否仍然是正确的。例如，如果要创建一个单词列表，允许我最好地忽略某些子字符串。从而使运行时间更好？

浏览 2提问于2022-01-25得票数 0

回答已采纳

2回答

在nodejs中，在数组中查找子数组

node.js、arrays

有最快的方法在数组中找到子数组吗？以匿名方法为例？ break; } return pos;诚挚的</

浏览 4提问于2021-09-26得票数 0

回答已采纳

2回答

查询数据帧的最快方法

python、pandas

我想对大熊猫数据帧(数百万行)的行进行聚合操作(sum)，这是由几个固定列(最多10列)上的一个条件决定的。这些列只有整数值。我的问题是我必须进行这个操作(查询+聚合)数千次(~100000次)。我认为对于聚合部分，没有太多需要优化的地方，因为它只是一个简单的求和。执行此任务的最有效方法是什么？有没有什么方法可以在我的条件列上建立一个“索引”，以加快每个查询的速

浏览 0提问于2013-12-19得票数 10

3回答

将python迭代器输出转换为pandas数据帧的最快方法

python、pandas

我有一个生成器，它返回未知数量的数据行，我希望将这些数据转换为索引的pandas数据帧。据我所知，最快的方法是将CSV写入磁盘，然后通过'read_csv‘解析回来。我知道创建一个空的dataframe，然后不断地追加新的行是没有效率的。我不能创建预置大小的dataframe，因为我不知道将返回多少行。有没有一种<em

浏览 1提问于2017-03-24得票数 12

1回答

检查pandas数据帧并在同一行的其他列中显示其他元素的最快方法

python、pandas、dataframe

如果有需要检查的单词列表... word_list = ['word1', 'word2', 'word3'] 和像这样的数据帧 Word,Score_a,Score_b,Score_cword3,40,20,10 在给定的单词列表中找到每个单词的相应分数的最快方法是什么？例如，&

浏览 11提问于2021-03-21得票数 2

回答已采纳

1回答

如何从子列表中的所有数据框中提取一列，并使用这些数据运行Kruskal Wallis测试？

当我这样做的时候：我能够对子列表中每个数据帧的第14列运行测试。然而，我需要在超过1000个子列表上运行它，所以单独写出来是不可行的。如何访问每个子列表中每个数据帧的第14列，以便仅对该子列表中的数据</em

浏览 0提问于2017-07-29得票数 1

1回答

如何使用循环从一个矩阵中获得多个条件下的多个子集？

我想问一个R的数据操作问题。)], 2, function(i) (sum(i > 0)))G2<-(sig2*sh2) G<-data.frame(G1/G2) 我想设置一个R代码，根据上面提到的每个条件，为all_matrix的所有子集计算"G“。那么，我如何使用loop对每个子集使用不同的条件来获得矩阵的子集，以便进一步处理以计算"G"：我想在循环中使用subset()函数：有人能帮

浏览 21提问于2018-12-20得票数 0

1回答

提高非常大的数据帧上的迭代性能

python、pandas、dataframe、iteration、list-comprehension

我有一个pandas数据帧，它由300万行和50列组成，所有列都包含整数(正数或负数)。我想创建一个名为'feature‘的新列，它从现有的50列中提取最大的负数。因为我的数据帧太大了，所以我尝试的解决方案花费的时间太长了。例如，我尝试过使用列表理解，但是因为我求助于iterrows()，所以它太慢了(itertuples()的性能并没有明显的提高)：

浏览 3提问于2019-07-17得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云