我有一个包含10列的数据帧:
A B C 1 1 1 1 1 1 1
B M J 2 1 2 2 2 2 2
J K Z 3 3 3 3 3 3 3.1
V N I 4 4 4 4 4 4 4
我想排除那些在4到10列之间具有相同值的行。我找到了比较不同行的解决方案,但这里我讨论的是1行以内的行。所以输出是
B M J 2 1 2 2 2 2 2
J K Z 3 3 3 3 3 3 3.1
因为第一行和最后一行在第4列到第10列中具有相同的值。我可以通过将每个值1
我有一些大的csv文件,我需要将它们合并在一起。每个文件大约5 8gb,而我的RAM只有8 8gb。我使用以下代码将一些csv文件读取到数据帧中,并在列fund_ticker、ticker和date上合并它们。 import numpy as np
import pandas as pd
# Read in data, ignore column "version"
table1 = pd.read_csv(r'C:\data\data1.csv', usecols=lambda col: col not in ["Version"])
ta
我已经将一个大的数据帧分成了小块。我现在正在尝试将这些块中的数据传递到一个循环中,但我不确定如何调用这些块中的每一个数据帧。
我已经将Dataframe分成4个块,如下所示。但是我不确定如何调用这些分块的Dataframe并在循环中传递它们
n = 4
chunks = [df[i:i+n] for i in range(0,df.shape[0],n)]
找不到为什么更新过滤后的数据帧不能工作。代码也不会返回任何错误消息。我很感激你能给我提示帮忙。
因此,当我想更新dataframe时,问题就出现了,但只需要对给定的选择进行更新。给定数据帧上的.update函数,对象根据索引从一个基于另一个数据集的数据更新数据。但是,当应用于过滤数据时,它不会做任何事情。
样本数据:
df_1
index Name Surname
R222 Katrin Johnes
R343 John Doe
R377 Steven Walkins
R914 NaN NaN
df_2
index Name
我有一个非常大的数据帧((35000行),但我想通过跳过例如100行来获得特定的行。
所以在这种情况下,每100行,我将只得到一行。
我知道这可以使用以下命令来完成:
N = nrow(dataframe)
for( i in seq(1:N,by=100))
{
out <- rbind(out, data.frame(...)
}
这是不是比for循环更容易呢?使用subset或类似下面的内容
问候
我从一个大的数据帧(828行x 9列)开始,它与郊狼使用的位置和随机位置的植被测量有关。我使用ddply按照Coyote ID、Random (Y或N)和观察次数(nrow)来排列数据。
有几行如下所示:
COYOTID Random nrow
1 Y 28
1 N 28
2 Y 16
2 N 12
3 Y 8
3 N 8
我想让R告诉我,对于哪些ID,有相同数量的观察值超过某个阈值(假设是28:在本例中只有ID1)。然后我想从原始数据框中创建一个新的数据框,只保留包含这些ID的行。我该怎么做呢?到目前为止,我看到的所有内容(通常是lapply)都将整个列作为“子集”来处理,而不
我已经对R中的一个数据帧进行了分组和汇总,因此我现在有一个表,如下所示:
Group | Value | Count
==========================
A | 1 | 4
A | 2 | 2
A | 10 | 4
B | 3 | 2
B | 4 | 4
B | 2 | 3
C | 5 | 3
C | 2 | 6
我感兴趣的是找出值2在每组中的相对频率:
Group | Relative freq of 2
======
我有一个数据框架,如下所示:
CEMETERY CONTEXT SEX BONE MEASUREMENT VALUE
1 Medieval-St. Mary Graces 6225 MALE HuE1 L 64.1
2 Medieval-St. Mary Graces 6225 MALE HuE1 R 62.7
3 Medieval-St. Mary Graces 6225 MALE HuHD L 50.1
4 Medieval-St. Mary Grace
数据帧的列可以由name (与colname相同)提取,但不能由rowname提取。示例数据帧:
> dbar
aa bb cc
r1 1 one 1e+01
r2 2 two 1e+01
r3 3 three 1e+01
r4 4 four 1e+01
r5 5 five 1e+01
Rgames> dbar$aa
[1] 1 2 3 4 5
Rgames> dbar$r2 #doesn't work
NULL
# have to to something like
Rgames> subset(dbar,rowna
作为更大更复杂的代码体的一部分,我遇到了dplyr / local数据帧挑战。如下面的简化示例per所示,代码包括在基本R中工作的基本类型的子集:
#creation of data frame
dat=data.frame(group=c(rep(c("a","b","c","d"),2)),value=(seq(1,8,1)))
othergroup=dat[dat[,"group"]==dat[2,"group"],]
othergroup
这给出了所需的答案:
group value
2
我需要删除大量的行,比如30米,从一个有300米行的大桌子上删除,这是我在研究这个问题之后想出的。计划是使用一个存储过程来运行一个循环,在10K的批次中删除行,直到它完成,然后让它在一夜之间运行。BTW服务器innodb缓冲池大小= 20G
这个看上去怎么样?有什么建议、评论或关切吗?
在此之前,非常感谢你对这方面最好的方法的任何建议。
DROP PROCEDURE IF EXISTS Mydb.sp_clean_HTOv1;
DELIMITER $$
CREATE PROCEDURE Mydb.sp_clean_HTOv1()
BEGIN
DECLARE FinishedFlag I
我有一个数据帧列表:
d1<-data.frame(a=rnorm(5), b=rep(2006, times=5), cc=c(1:5))
d2<-data.frame(a=rnorm(5), b=rep(2007, times=5), cc=c(1:5))
d3<-data.frame(a=rnorm(5), b=c(2005:2009), cc=c(1:5)) #data frame with only one 2007 value
d4<-data.frame(a=rnorm(5), b=rep(2007, times=5), cc=c(1:5))
my
首先,我在R中使用ukpolice library并将数据提取到一个名为crimes的新数据框架中。现在我遇到了一个新的问题,我试图将某些数据提取到一个名为df.shoplifting的新的空数据框架中,如果犯罪类别等于“商店盗窃”,它需要将id, month and street name添加到新的数据帧中。我需要使用循环和if语句。
编辑:目前我有这个工作,但它缺少IF状态:
for (i in crimes$category) {
shoplifting <- subset(crimes, category == "shoplifting", select = c