我有一个6列3行的数据框。数据帧由元组组成,例如(3, 5)(4, 5)(3, 5)(5, 5)(2, 3)(5, 3)。 我需要创建一个函数,它将行中以相同第一个数字开头的第二个元组相加,例如,(3, 5)将与(3,5)对应,然后我们将两个5相加,得到10,并将总和保存到同一数据帧中的新列中。 This is what my data frame looks like
我试图使用函数rmultinom从R中的多项分布生成数据,但我遇到了一些问题。事实是,我想要一个50行20列的数据帧,结果的总和等于3乘以n*p。 我使用以下代码: p <- 20
n <- 50
N <- 3*(n*p)
prob_true <- rep(1/p, p)
a <- rmultinom(50, N, prob_true) 但我得到了一些非常奇怪的结果和一个20行50列的数据框。如何解决这个问题? 提前感谢!
我正在努力找出如何对熊猫做几个变形。我想要一个新的数据帧,其中包含来自原始列的值的总和。我还希望能够合并其中两个“相加”的数据帧。
示例#1:对列求和
之前:
A B C D
1 4 7 0
2 5 8 1
3 6 9 2
之后:
A B C D
6 15 24 3
现在,我正在获取感兴趣的列的总和,将它们存储在字典中,并从字典创建数据帧。我觉得有一种更好的方法来解决熊猫的问题,我看不到。
示例#2:合并“summed”数据帧
之前:
A B C D F
6
如何从具有共同列值的两个数据帧中获得合并的数据帧,使得只有那些行使得合并的数据帧在特定的列中具有共同的值。
我有5000行df1格式:
director_name actor_1_name actor_2_name actor_3_name movie_title
0 James Cameron CCH Pounder Joel David Moore Wes Studi Avatar
1 Gore Verbinski Johnny Depp Orlando Bloom Jack Davenport Pirates
o
我有一个包含三列的数据集。 Date Account Text
12 F.G. There is a dog outside
34 R.A. Where are my keys?
34 F.H. Have you ever seen titanic?
34 V.B. I found this dog.
34 K.J. You have a lovely dog
36 F.E. How old is your sister? 我想在每天报告计数的专栏中搜索一个单词,例如dog,看看是否有更频繁的一天。 我知道如何从数据框的列中
我正在尝试修改数据帧,并努力将我的操作合并到一个for循环中。我想要根据一个特定的列对数据帧进行子集,将不同的行附加到每个子集,并再次将修改后的子集合并为一个单独的数据帧。让我们以虹膜数据为例: #Create data frame subsets based on Species column
iris_subs <- split(iris, iris$Species)
#create an empty data frame with the same columns as in iris and one empty row
emptydf <- iris[FALSE,]
e
我有两个一行的数据帧,每个数据帧都有相同的列名。其中一个数据帧在一个或多个列中具有NA值。我希望删除其中一个数据帧中具有NA值的列,并删除第二个数据帧中的相同列。
样本:
数据框架1:
age height education average
NA 1.80 college NA
数据框架2:
age height education average
36 1.95 college 85
结果:
数据框架1:
height education
1.80 college
数据框架2:
height education
1.95 college
我该
我正在尝试找到一种在数据帧内进行搜索的方法,以返回多个条件的列和行引用。
#some data
SalesData<-data.frame(Appliance=c("Radio", "Laptop", "TV", "Fridge"), ThisYear=c(5,25,5,8), LastYear=c(6,20,5,8))
#code to find which row column TV is in which correctly gives row 3, col 1
TVRef<-which(SalesDat
如果列的最后一行不是空的,我希望对该列进行求和。然后,求和的结果应该保存在第一行中,以便它是“永不结束的列(但只有4行)( A、B、C、D的值是手动输入的,除非D不是空的,-> A应该是和,B、C、D应该手动输入)。
A -> 4
B -> 2
C -> 5
D -> 3
E -> sum(A+B+C+D) (14)
现在填充了第4行(D),所以我想要和A+B+C+D (4+2+5+3=14),结果应该保存在第一行(A)中:
A -> 14
B -> (empty)
C -> (empty)
D -> (empty)
E ->
我有一个有两列分隔字符串的数据框架:
df <- data.frame('a'=c('a, b, c, d', 'a, c', 'b, d'), 'b'=c('a, d', 'a', 'a, d'))
a b
1 a, b, c, d a, d
2 a, c a
3 b, d a, d
我想创建第三列,以包含与前两列相交的字符串,例如:
a b
我有一个包含多个列的数据框。我想要迭代数据帧的一些列,并基于一个名为tokenizer的函数将每一行转换为一个列表。
columns = ['stemmed', 'lemmatized', 'lem_stop','stem_stop', 'lem_stop_nltk', 'stem_stop_nltk']
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
sentences = []
for i in co
我有一个CSV文件,有很多行和不同的列数。
如何根据列的计数对数据进行分组,并在不同的帧中显示?
CSV文件具有以下数据:
1 OLEG US FRANCE BIG
1 OLEG FR 18
1 NATA 18
由于每一行的列数不同,所以必须按列数对行进行分组,并显示3帧才能设置标头:
ID NAME STATE COUNTRY HOBBY
FR1: 1 OLEG US FRANCE BIG
ID NAME COUNTRY AGE
FR2: 1 OLEG FR 18
FR3:
ID NAME