使用R将两个数据帧行合并为相同的数据帧行，同时具有相同的行大小_保留具有矩阵R的相同列名的数据帧的行_如何选择两个数据帧之间具有相同值的行？ - 腾讯云开发者社区

r、merge、dataframe、rstudio

我有两个数据帧，第一个包含9994行，第二个包含60431行。我想合并两个数据帧，以便合并后的数据帧包含两个数据帧的组合列，但只包含9994行。然而，我在合并时得到了超过9994行。我如何确保这种情况不会发生？ df1 = readRDS('data1.RDS') nrow(df1) # [1] 9994 df2 = readRDS('data2.RDS') nrow(df2) # [1] 60431 df = merge(df1,df2,by=c("col1","col2")) nrow(df) # [1] 10057

浏览 2提问于2015-05-23得票数 7

4回答

比较R中的两个数据帧对象是否相等？

r、dataframe、compare、equality

如何检查两个对象(例如数据帧)在R中的值是否相等？所谓值相等，是指一个数据帧的每一列的每一行的值等于第二个数据帧中相应行和列的值。

浏览 3提问于2012-05-15得票数 57

回答已采纳

3回答

生成r中的大量样本

r、sampling

我有一个50行4列的数据框架。我想得到很多12行的样本数据帧，可能是其中的一百万，我不希望我的两个样本数据帧是相同的。我使用了以下代码 df_l <- list() for(i in 1:6000000) { set.seed(100+i) a <- df[sample(nrow(df),12,replace=T),] df_l[[i]] <- a rownames(df_l[[i]]) <- 1:12 } 但我的困惑是，这可能不是有效的方法，我也不知道两个样本数据帧是否相同。

浏览 19提问于2020-05-15得票数 1

回答已采纳

1回答

如何将函数应用于R中的子列表

r、tidyverse、purrr、sublist

我正在尝试将sample_n()函数应用于R中的子列表。不知怎么的，经过几次尝试，我还是不能正确地使用它。我的数据结构是一个包含27个列表的列表(我称它们为27个元素)。每个元素是数据帧的列表。请看这两张图片，以便更清楚地了解数据结构。包含27个列表的列表。 ? 每个子列表是数据帧的列表。 ? 我想对每个数据帧应用sample_n()。数据框的示例如下所示。 > test2[[1]][[1]] 数据帧的一个示例 ? 对于这个数据框，outdegree_within_or1变量的第一个元素是1，所以我想对这个数据框中的一行进行采样。如果对于另一个数据帧，相应的

浏览 9提问于2020-07-05得票数 0

回答已采纳

1回答

尝试跨越两个数据帧，一个带有值，另一个带有布尔值

python、dataframe、boolean、concat

我正在尝试从两个源数据帧中获取新的数据帧。第一个将包含数据，第二个将只包含True或False。两者具有相同的列名、相同的列数和相同的行数。 import pandas as pd data1 = [['Alex',10],['Bob',12],['Clarke',13]] df1 = pd.DataFrame(data1,columns=['Name','Age']) data2 = [[True,False],[False,True],[False,False]] df2 = pd.DataFrame(dat

浏览 0提问于2019-10-31得票数 1

2回答

R中数据帧中值的唯一和非唯一列表

r、dataframe

假设我有两个数据帧：数据帧1(让我们称之为Data1)： V1 V2 1 "AB" 3 "XY" 5 "DH" 8 "ST" 7 "RE" Data1代码： V1 <- c(1,3,5,8,7) V2 <- c("AB","XY", "DH", "ST","RE") Data1 <- data.frame(V1,V2) 数据帧2(让我们称之为Data2

浏览 3提问于2013-07-12得票数 1

回答已采纳

2回答

组合具有不同列名的2个数据帧

r、merge、dataframe

在R中，我有两个数据帧，它们都有不同的列名。我想根据列号组合每个数据帧的行。我所拥有的数据帧如下 > d1 X.0.52..V2 X.0.52..V4 1 ABT 700 2 AMD 9600 3 AMG 600 4 AGCO 800 > d2 X.52.96..V2 X.52.96..V4 1 COMS 162193 2 MMM 419645 3 SE 146343 4 A

浏览 0提问于2013-03-15得票数 2

回答已采纳

2回答

R:使用循环使用来自不同数据集的2个变量来应用公式

r、loops、nested、formula

我有两个Excel表格的气候数据:温度(dtT)和相对湿度(dtR)。每个帧是39行(监控点)乘64列(61天，从121到181，"lat"，"lon"，和"county")。两张纸的顺序完全相同。我想使用这两个数据集来计算每个监测点每天的“热指数”，填充相同维度的另一个数据帧。问题:我尝试使用嵌套循环，但是所有的值都返回为零。会不会是因为"county“列包含单词，R将所有数字读取为字符，所以它无法执行计算？(**指定的列在这里可能看起来很混乱，但我正在寻找一般策略) dtT <- read.csv("C:/Users/

浏览 5提问于2012-03-13得票数 0

回答已采纳

1回答

如何在scala中将seq[row]转换为数据帧

scala、dataframe

有没有什么方法可以转换Seq 行转换为scala中的数据帧。我有一个数据帧和一个字符串列表，它们具有输入数据帧中每一行的权重。我想构建一个dataframe，它将包括所有具有唯一权重的行。我能够过滤唯一的行并附加到seq 行但我想建立一个数据框架。这是我预先编写的代码.Thanks。 def dataGenerator(input : DataFrame, val : List[String]): Dataset[Row]= { val valitr = val.iterator var testdata = Seq[Row]() var val = HashSe

浏览 101提问于2021-03-01得票数 0

回答已采纳

1回答

使用for循环获取两个列表的输出

python、comparison

如果你们能帮我解决这个问题，我将不胜感激。在我的python代码中，我使用open(file，r)函数打开了两个文件。现在我想要的是，读取这两个文件的所有行，如果它们匹配，则比较这些数据中的两列。我已经为文件中的每一行尝试了嵌套的for循环 for line in file: for lines in file: file1 = split(line) file2 = split(lines) process matching query 然而，它似乎不起作用。你们能给我指出实现这个目标的正确方向吗？谢谢

浏览 0提问于2012-10-14得票数 3

2回答

为R中dataframe中的每一行数据创建哈希值

database、r、hash

我正在探索如何更有效地比较R中的两个数据帧，并且我提出了散列。我的计划是使用digest包中的digest为具有相同列的两个数据帧中的每一行数据创建哈希，我认为哈希对于任何两个相同的数据行都应该是相同的。我尝试使用下面的代码为每一行数据提供唯一的散列： for (loop.ssi in (1:nrow(ssi.10q3.v1))) {ssi.10q3.v1[loop.ssi,"hash"] <- digest(as.character(ssi.10q3.v1[loop.ssi,])) print(paste(loop.ssi,nrow(ssi.10q

浏览 1提问于2011-02-23得票数 5

回答已采纳

1回答

R数据帧根据日期将列名转换为行，具有公共字符串且非0值的列名转换为1行项。

r、dataframe、pivot-table、dplyr

我希望通过查看以下条件将R数据帧列名转换为行如果两个列名的部分公共名称由“_”(如x_a01 )分隔，则y_a01将其转换为1行项，并根据日期将其作为a01的公共名称。例: x_a01、y_a01 -> a01、x_b01、y_b01 -> b01这些转换后的列名应该具有非零值。例: x_c01，y_c01在第一行中有0值--在转换为行项时，应该忽略这些值。数据文件：将上述数据转换为：

浏览 3提问于2021-04-18得票数 1

回答已采纳

2回答

查找重复行的索引

r、duplicates、dataframe

在R中复制的函数执行重复的行搜索。如果我们想要删除重复项，我们只需要写df[!duplicated(df),]，然后重复项就会从数据帧中删除。但是如何找到重复数据的索引呢？如果duplicated在某一行上返回TRUE，这意味着这是数据帧中第二次出现这样的行，可以很容易地获得它的索引。如何获取此行首次出现的索引？或者，换句话说，重复行与之相同的索引？我可以在data.frame上做一个循环，但我认为这个问题有一个更优雅的答案。

浏览 3提问于2012-09-19得票数 78

回答已采纳

1回答

如何匹配ID号以合并两个数据帧

r、pattern-matching

我有两个数据帧，这两个数据帧的列的ID号应该匹配。然而，这两个数据帧的ID数量不同。一个有118个ID，另一个有103个ID。具有118个ID的数据帧有全部103个ID，但有一些额外的ID。我想从118行数据帧中提取两列，并根据ID号将它们与103行数据帧中匹配的ID合并。我不知道解决这个问题的最简单的方法。

浏览 2提问于2019-02-07得票数 3

回答已采纳

1回答

查找两个数据帧之间不匹配的行

python、pandas、dataframe

我有一个场景，我希望在两个数据帧之间找到不匹配的行。这两个数据帧都有大约30列和一个唯一标识每条记录/行的id列。因此，我想检查df1中的行是否与df2中的行不同。df1是更新后的数据帧，df2是以前的版本。我尝试了一种方法pd.concat([df1, df2]).drop_duplicates(keep=False)，但它只是将两个数据帧结合在一起。有办法做到这一点吗。如果能帮上忙我会很感激的。这两个dfs的示例数据如下所示。 id user_id type status 总共有39列，其中可能包含NULL值。谢谢。 P.S. df2将始终是df1的子集。

浏览 11提问于2020-09-28得票数 1

4回答

从R中的for循环写入数据帧

r、for-loop、dataframe

我正在尝试从循环写入R中的数据帧，例如像this>这样的循环 for (i in 1:20) { print(c(i+i,i*i,i/1))} 并将每行3个值写入具有三列的数据帧，以便每次迭代都采用新的行。我尝试过使用矩阵、ncol=3和按行填充，但只从循环中获得了最后一项。谢谢。

浏览 0提问于2010-04-02得票数 17

4回答

R:如何在不耗尽内存的情况下rbind两个巨大的数据帧

r、memory、memory-management、data.table、sqldf

我有两个数据帧df1和df2，每个数据帧大约有1000万行和4列。我使用RODBC/sqlQuery将它们读取到R中，没有任何问题，但是当我尝试rbind它们时，我得到了最可怕的R错误消息：cannot allocate memory。必须有更有效的方法来更有效地进行rbind --有人想分享他们最喜欢的诀窍吗？例如，我在sqldf的文档中找到了这个示例： # rbind a7r <- rbind(a5r, a6r) a7s <- sqldf("select * from a5s union all select * from a6s") 这是最好的/推荐的方法吗？

浏览 19提问于2011-01-22得票数 20

回答已采纳

1回答

将单个列名分配给r数据帧

r、dataframe

请原谅我的无知，因为我是R的初学者在R中，我正在转换一个dataframe (某些行到列)，并将结果保存回数据帧，这正是我所需要的。但是第一列的列名缺失了，我需要将它与其他数据帧连接起来。使用的数据帧结果和功能 dish_pair<-as.data.frame.matrix(xtabs(count~primary_id+subcategory_name, dishes)) 但是我如何才能得到第一列名为primary_id ，它们持有行值50792 ,50793。 (我只需要第一个列名值为primary_id，重命名数据帧值是正确的)

浏览 3提问于2017-03-16得票数 0

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

pandas、apache-spark、dataframe、scikit-learn、pyspark

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的每一行都有了journalID和TFIDF vector。我想将支持向量机应用于所有类型的核，以TFIDF向量作为特征，以JournalID作为标签。由于多类支持向量机不存在于pys

浏览 1提问于2018-12-17得票数 0

1回答

使用R在文件夹中逐行随机抽样多个数据帧

r、dataframe、preprocessor

对不起，我是编程新手，所以我需要所有我能得到的帮助。我正在使用R，我面临的任务如下：我在.csv中有一个包含40个文件的文件夹。它们都具有相同的标题和相同数量(131)的列(或特征)，但每一个都具有不同的行(2000到10,000行)。由于计算限制:我希望对文件夹中的每个文件/数据帧进行子集设置，例如从每个数据帧中随机抽样300行，并将这种随机行抽样应用于文件夹中的所有文件。最后，我希望将所有采样的数据帧合并到一个数据帧中，并写出一个.csv文件。我的想法是： --查找文件夹路径 folder.path<-getwd() 读取所有csv文件 filenames <- li

浏览 30提问于2020-01-28得票数 0

回答已采纳

1回答

如何组合两个不同分辨率/高宽比/帧的视频

python、video-editing、moviepy

在合并两个视频时，我们需要考虑什么？当将两个视频组合在一起时，纵横比有什么重要性吗？在组合视频时，帧的编号是否有任何关系？我正尝试用Python Movie.Py将两个不同分辨率、帧速率和纵横比的视频组合起来。 final_clip = concatenate_videoclips([video1, video2], method='compose') 当我尝试不同分辨率的视频时，重要的视频不是我所期望的。

浏览 0提问于2018-03-08得票数 1

回答已采纳

1回答

在R中将一列分成10个相等的部分

r、statistics

我正在尝试将一个数据帧划分为10个相等的组。我试过这样做：代码： data$test<-as.numeric(cut2(data$age_201512, g=10)) res_count_table_10<-aggregate(data$final_res~data$test,data,sum) 输出为：我已经尝试对test变量进行计数 table(data$test) 怎样才能分成相等的10组？？我在Excel VBA中尝试了同样的方法，使用( no.of总行数/10)作为组中的行数。输出我可以在R中使用上面的组来计算信息值，但不能用等于no的组。

浏览 0提问于2017-03-31得票数 0

4回答

查找行的出现次数

在R中，我想以最快的方式找到数据帧中唯一行的出现次数。我有200多万行数据，但是我的16 of内存的机器table和ftable的数据存储速度很快，但是唯一组合的数量超出了它们的处理能力，所以我收到了一条错误消息。谢谢史蒂夫

浏览 0提问于2011-05-07得票数 2

3回答

如何遍历R中的数据帧列表

r、coding-style、dataframe

我在R中有一个列表，其中包含几个数据帧。我想遍历数据框并计算数据框中某个值的最小/最大值。这是我现在拥有的代码： firstname = names(dats)[1] xlim = c( min( dats[[firstname]][,xlab] ), max( dats[[firstname]][,xlab] ) ) for ( name in names(dats) ) { xlim = c( min(xlim[1],dats[[name]][,xlab]), max(xlim[2],dats[[name]][,xlab]) ) } 这对我来说似乎很丑陋，因为它需要很多代码才能做一

浏览 4提问于2011-02-20得票数 9

回答已采纳

1回答

根据匹配的行/列组合R将一个数据帧的单元格与另一个数据帧的单元格相乘

r、dataframe、dplyr

如果我有一个数据帧(df1)，并且我想根据匹配的列和行ID将数据帧的每个单元格乘以第二个数据帧(df2)的单元格，我该怎么做呢？ df1： df1<-data.frame(id=rep(1:100), Room1=rnorm(100,0.4,0.5), Room2=rnorm(100,0.3,0.5), Room3=rnorm(100,0.7,0.5)) df2： df2<-data.frame(id=rep(1:100), Room1=rnorm(100,1,7

浏览 0提问于2021-05-21得票数 1

2回答

如何将R中不同数据集的两列组合起来？

r、dataframe

我在R中有两个数据帧:A& B。A包含一列("X1")，包含138个数据帧。B包含一列(“术语”)和520项。我想将这两种数据合并成一个只有一列的新数据帧，因此它将包含138+520=658观测。我的数据：答： X1 1 word1 2 word2 3 word3 4 word4 . . 138 word138 B： term 1 word139 2 word140 3 word141 4 word142 . . 520

浏览 3提问于2021-07-25得票数 1

回答已采纳

2回答

在pandas中连接两个数据帧的行

python、pandas、dataframe

我需要一个接一个地连接两个具有相等行数(nRow)的数据帧df_a和df_b，而不考虑任何键。此函数类似于R programming language中的cbind。每个数据帧中的列数可能不同。所得到的数据帧将具有相同的行数nRow和等于两个数据帧中的列数之和的列数。换句话说，这是两个数据帧的盲列连接。 import pandas as pd dict_data = {'Treatment': ['C', 'C', 'C'], 'Biorep': ['A', 'A', 'A

浏览 0提问于2015-01-25得票数 79

回答已采纳

1回答

16位灰度图像的无损H.264压缩

compression、h.264、image-compression

我有一个16位单色图像，我需要使用无损H.264编码它。理想情况下，我希望能够使用16位Y组件，然后空U和V组件，但我相信这种实现是不存在的。在另一个极端，我不想被强迫把它分割成两个8位的灰度图像，并编码两个帧。如何才能最接近于编码理想的16:0:0位分布呢？注意事项：我的原始数据在YUV444中，每个组件使用16位，但我可以以任何必要的方式重新排列位平面。

浏览 2提问于2014-02-26得票数 4

回答已采纳

1回答

Linq 2 SQL并行处理

c#、multithreading、linq-to-sql、parallel-processing

我有一个长期运行的任务，它受益于多线程。随着时间的推移，每个线程都会添加一个L2S实体，每个线程都需要访问该实体中的属性。由于需要实体的单个实例，因此很难为每个线程使用多个datacontext。有没有一种推荐的方法来实现这种情况？在使用Linq to SQL之前，我是在经过一定数量的并行迭代后序列化到XML的。这工作得很好，但此后数据变得更加复杂，需要SQL中提供的关系/查询；一些附加信息:任务是分析视频的帧，以找到相似帧的序列。有媒体，帧和镜头的表格。具有多个帧和镜头的媒体具有多个帧的镜头；帧提取和比较是处理器密集型操作，并受益于多线程。问题是，对于每个提取的帧。它需要将它自己与

浏览 0提问于2012-12-13得票数 0

回答已采纳

1回答

如何对熊猫进行子集和修改，比如R中的"which“？

r、pandas

我已经编写了一个R脚本，我将在其中使用它来设置数据子集和分配更改 i <- "132_list" t <- which(dat_unique$x == list1[i]) dat_unique$size_diff[t] <- size_diff 我正在用python实现类似的脚本，但不能这样做： i = "132_list" dat_unique[dat_unique.x == i]["size_diff"] = size_diff 它没有被修改 I是列x中某个变量的值。通过仅运行此命令，我可以获取子集数据帧，但不能修改它

浏览 6提问于2019-01-24得票数 0

回答已采纳

4回答

是否有使用列中的定性需求对数据进行子集的功能？

r、subset

我在为大型数据帧创建子集时遇到了问题。我需要提取与其中一列中两个正确城市之一匹配的所有行，但是我创建的任何子集最终都是空的。给定主要数据帧，我尝试： New = data[data$Home.port %in% c("ARDGLASS","NEWLYN")] 但是，R返回“选定的未定义列”

浏览 0提问于2020-03-11得票数 0

1回答

Dcast()奇怪的输出

r、dcast

我有两个数据帧。对这两个函数应用相同的dcast()函数会在输出中得到不同的结果。这两个数据集具有相同的结构，但大小不同。第一个有超过950行： ? 我应用的代码是： trans_matrix_complete <- mod_attrib$transition_matrix trans_matrix_complete[which(trans_matrix_complete$channel_from=="_3RDLIVE"),] trans_matrix_complete <- rbind(trans_matrix_complete, df_dum

浏览 17提问于2019-06-25得票数 0

回答已采纳

1回答

如何获取两个数据帧的交集？

python、pandas、dataframe

我有两个类似格式的数据帧： df1 = DataFrame({'a':[0,1,2,3,4], 'b':['q','r','s','t','u']}) df1 a b 0 0 q 1 1 r 2 2 s 3 3 t 4 4 u df2 = DataFrame({'a':[4,3,2,1,999], 'b':['u','r','s','t

浏览 0提问于2015-03-27得票数 10

回答已采纳

2回答

R按近似值分组

r、group-by、approximation

我有一个R数据帧(250,000行)，其中一些数据如下所示： df = data.frame(X = c(1000.005, 1000.7, 1200, 1566, 1766.55, 1767.30, 33.45, 33.25, 400.67, 400.77), Y = c(38.6, 38.4, 32.0, 32.01, 39.99, 39.20, 12.21, 12.11, 33.81, 33.91), Angle = c(50, 36, 27, 77, 26, 34, 29, 14, 37, 55)) 因此，我的目标是根据X和Y值的近似值对数据进行分组，差值不超过1。对于上面显示的数据

浏览 6提问于2020-05-06得票数 0

1回答

熊猫分组前和分组后的总和不同

python、pandas、pandas-groupby

我已经被这个问题困扰了一段时间了。我有一个包含大约3500行callcenter原始数据的数据帧-所以每行都是一个呼叫。例如，假设数据帧仅包含三列: 1)谁进行了呼叫，2)该呼叫是哪个活动的一部分，以及3)具有关于它是否被拾取的数据的布尔列。我不想保存整个数据帧，而是按活动和调用者对行进行分组，并将布尔列的两个值聚合到两个新列中：“connected calls”和“not connected calls”。一切都很正常，直到我对结果进行分组和聚合，最终得到的结果少于原始数据帧中的总行数-我不知道为什么会发生这种情况。希望外面的人能帮我:) 这是代码的一部分，我觉得有些地方不对劲。d

浏览 14提问于2020-02-29得票数 0

1回答

是否有按行垂直合并多个数据帧的R函数？

r、dataframe、merge、rows

我想知道是否有一个R函数可以垂直地将多个数据帧的行附加到单个数据帧中。我的数据集的列是不同的，并且具有不同的名称，所以我不能使用rbind()。我尝试了bind_rows()和smartbind()，但仍然以水平方式获得输出。

浏览 15提问于2021-11-19得票数 1

回答已采纳

1回答

为什么`row.names`比‘`rownames`’更受欢迎？

在R核心库中有两个功能。获取和设置数据帧的行名检索或设置类似矩阵的对象的行名。但是，row.names的文档为数据帧指定了“行名”和“冒号”，最后分别调用了“row.names”和“name”，但后者是首选。为什么row.names是首选？难道忽略row.names只打电话给rownames不是更容易吗？

浏览 1提问于2016-07-19得票数 32

回答已采纳

2回答

循环if语句遍历各行

我是R的新手，所以我在问一个基本的问题。我有两个数据帧数据帧1包含匹配对： Factor1 Factor2 A D B E C F 数据帧2包含不同样本中不同因素的水平： Sample1 Sample2 A 10 0 B 10 0 C 0 0 D 0 10 E 0 10 F 0 0 我正在尝试遍历第一个数据帧。对于数据帧1中的每一行，如果样本1中factor1的电平大于5，并且样本2中因子2的电平大于5，则在数据帧1中添加第三列中的TRUE，否则添

浏览 0提问于2017-09-12得票数 0

1回答

如何测量用于通道连接的SINR？

wireless、ieee-802.11

我曾经设置了一个WiFi环境，假设所有设备都在同一个无线信道上工作，即一个单一的20 MHz信道。设备将把所有相邻设备的传输视为干扰。因此，可以简单地计算传输的SINR，这允许我通过查找表获得数据速率。最近，我想扩大我的问题，在信道键合的特点，相邻的通道可以组合成一个更宽的通道，即两个20 MHz通道可以合并为一个40 MHz信道，使信道容量翻倍。我想继续使用SINR来计算数据速率，但遇到了问题。由于我假设不同的设备可以在不同的信道上工作，当一个设备连接两个信道时，每个信道上的干扰量/水平可能是不同的。那么，在这种情况下，计算数据速率的正确方法是什么呢？我是否分别计算SINR，以获得每个20

浏览 0提问于2022-02-09得票数 0

2回答

从具有已知行号的文本文件的中间选择文本

我写了一些R代码来对我的研究项目进行分析。我以这样一种方式编写代码，即有一个输出文本文件，其中包含程序的状态。现在，输出文件的标题如下所示： start time: 2014-10-23 19:15:04 starting analysis on state model: 16 current correlation state: 1 >>>em_prod_combs em_prod_combs H3K18Ac_H3K4me1 1.040493e-50 H3K18Ac_H3K4me2 3.208806e-77 H3K18Ac_H3K4me3 0.00013073

浏览 1提问于2014-10-26得票数 0

1回答

如何使用tabula将PDF表格提取到dataframe中

tabula

我正在尝试提取PDF文件的“内容”页面(例如，第2页)作为一个表，并提出一个数据帧来跟踪项目与其对应的起始页码。一些人建议使用"Tabula“。我尝试了几行，但似乎要么找不到read_pdf模块，要么得到一个空的数据帧。感谢任何帮助，让它工作？ from tabula import wrapper myfile='‘ df = wrapper.read_pdf(myfile)

浏览 0提问于2017-11-18得票数 0

2回答

如何在Pandas中展平groupby操作的结果？

python、pandas

使用Pandas数据帧，有没有一种方法可以扁平化groupby操作的结果，而不必使用临时数据帧，然后将其合并到原始数据帧中？假设我需要创建一个依赖于聚合操作的"result“列，就像这个场景： import pandas as pd df = pd.DataFrame({'box': [1,1,1,2,2,3,3,3,3], 'item': ['apple', 'durian', 'pear', 'orange', 'banana', 'apple',

浏览 82提问于2020-05-04得票数 2

回答已采纳

1回答

R:多个子样本回归的约束系数和误差方差

r、regression、linear-regression、lm

我和R一起做了145次观测。我已经创建了五个子样本，每个子样本都有29个观察，而响应变量q已经被排序。因此，subset1包含29行数据帧，输出最低，subset2包含以下29行，等等。我将变量q回归到预测因子x1，x2和x3上。我现在需要做两个实验：将所有子样本的误差方差约束为相同；将x2和x3上的系数以及5次OLS回归的误差方差约束为相同。到目前为止，我的方法是使用包plm，它允许执行面板回归。但是，我不知道具体地限制误差方差，或特定的系数。此外，我认为一定有一种方法可以用R中更基本的工具来实现。请不要犹豫，提供替代方法。提前感谢您的帮助！

浏览 4提问于2016-08-28得票数 0

回答已采纳

4回答

从图像文件列表创建pandas数据帧

python、pandas

我正在尝试从图像文件(.png文件)列表创建一个pandas数据帧 samples = [] img = misc.imread('a.png') X = img.reshape(-1, 3) samples.append(X) 我在示例中添加了多个.png文件，如下所示。然后我试着用这个来创建一个熊猫数据帧。 df = pd.DataFrame(samples) 抛出错误"ValueError:必须传递2-d输入“。这里出了什么问题？真的有可能将图像文件列表转换为pandas数据帧吗？我对panda完全陌生，所以如果这看起来很傻，请不要介意。对于ex。 X = [[

浏览 2提问于2016-07-13得票数 2

3回答

基于mfcc和动态时间规整(dtw)的声音分类

mfcc

我的目标是在java中使用mfcc和dtw对非语音信号进行分类。然而，我被卡在了中间。如果有任何帮助，我将不胜感激。我已经为每个帧评估了13个mfcc值，但是有些值是负值，我很困惑我所遵循的过程是正确的还是错误的。目前我使用的是JAudio提供的代码。我也尝试过其他代码，它们也给了我负值。其次，对于每一帧，我得到了13个系数，考虑到一定长度的样本的157帧，我得到了157组13个mfcc。我很难使用DTW中的所有系数，因为dtw只给出两个时间信号之间的最近距离。我有DTW的代码来比较两个时间信号。我不确定如何使用信号的所有mfcs值作为特征。我是否遗漏了一些关键的分类步骤？请帮帮我。

浏览 1提问于2012-07-17得票数 2

回答已采纳

5回答

R中的快速子集

r、dataframe

我有一个大小为30000 x 50的数据帧。我还有一个单独的列表，它包含指向此数据帧中的行分组的指针，例如， rows <- list(c("34", "36", "39"), c("45", "46")) 这表示具有行名(不是数字行索引，而是字符行名(Dat)) "34“、"36”、"39“的dataframe行构成一个分组，而"45”、"46“构成另一个分组。现在，我想将分组从数据帧中拉出到一个并行列表中，但是我的代码(如下所示)非常非常慢。我怎么才能加快速度呢？

浏览 0提问于2012-01-20得票数 7

回答已采纳

2回答

按列号对数据帧列表求和

python、pandas

我有一个包含5个数据帧的列表，每个数据帧有9列和15000行。我希望将每个数据帧中的列相加，以获得最终的9*15000数据帧。我试过这样的东西 Total = reduce(lambda x, y: x.add(y, fill_value=0), List) 所有这些操作都是将所有列附加到df Total。

浏览 22提问于2020-10-18得票数 1

回答已采纳

3回答

我可以在Java中一次迭代两个数组吗？

java、arrays

对于一个数组，我可以这样迭代： for(String str:myStringArray){ } 如何一次迭代两个数组？因为我确信这两个人的长度是相等的，我想这样做： for(String attr,attrValue:attrs,attrsValue) { } 但这是错误的。在这种情况下，映射可能是一个很好的选择，但是3个等长数组如何？我只是不想创建索引'int‘，它使用的格式如下： for(int i=0;i<length;i++){ }

浏览 4提问于2014-11-17得票数 1

回答已采纳

1回答

R高效地查找DataFrame列中的值

r、search、dataframe、lookup

我有一个很大的R数据帧，我需要多次高效地查找基于两列$start和$end的行。我假设典型的解决方案是O(N)： data[data$start <= start & data$end >= end, 1] 我更喜欢对至少一列进行排序，并执行更高效的O(log(N))查找。有哪些内置的R方法可以利用数据帧中的排序进行查找？

浏览 0提问于2011-12-06得票数 2

1回答

pyspark中的别名内部联接

apache-spark、pyspark、apache-spark-sql

我正在做具有相同名称和值的两个数据帧的连接。数据为： +----------------+------------------+ |id |name | +----------------+------------------+ |2 |G2 | |1 |H2 | |2 |H2 | |1 |G2 | +----

浏览 37提问于2020-12-25得票数 0

回答已采纳