如何使用IRanges一次模糊连接多个数据帧_使用Pyspark连接多个数据帧_使用pyspark连接数据帧的多个列 - 腾讯云开发者社区

、、

你好，我有以下格式的数据报： set.seed(42) df = data_frame(contigs = sprintf("k141_%s",floor(runif(100, min = 20, max = 200))), start = floor(runif(100, min = 100, max = 115)), end = floor(runif(100, min = 800, max = 830))) df *对不起，我不知道如何正确地输出df。

浏览 5提问于2022-06-01得票数 0

2回答

范围内的数据帧查找值并返回不同的列

、、、

我有两个数据帧，并希望使用一个值(DF1$pos)搜索DF2中的两个列(DF2start，DF2end)，如果它在这些数字范围内，则返回DF2$name。 DF1 ID pos name chr 12 chr 542 chr 674 DF2 ID start end annot chr 1 200 a1 chr 201 432 a2 chr 540 1002 a3 chr 2000 2004 a4 所以在这个例子中，我希望DF1成为 ID pos name chr 12 a1

浏览 6提问于2014-12-23得票数 5

回答已采纳

1回答

如果来自一个数据帧的数字符合另一个数据帧定义的条件，则从这两个数据集中打印信息。

我有两个大数据帧，其head()如下：数据框架一： family_name st_pos <chr> <dbl> 1 AluSp 26791 2 AluJo 31436 3 AluSx 39624 4 AluSz6 40738 5 AluYe5 51585 6 AluSc 62160 数据框架二： external_gene_name start_position end_position 1 ATP1A2 160115759

浏览 3提问于2020-06-24得票数 0

回答已采纳

2回答

在数据帧中，将重叠的范围合并到唯一组中

、、、、

我有一个n行和3行的数据帧。 df <- data.frame(start=c(178,400,983,1932,33653), end=c(5025,5025, 5535, 6918, 38197), group=c(1,1,2,2,3)) df start end group 1 178 5025 1 2 400 5025 1 3 983 5535 2 4 1932 6918 2 5 33653 38197 3 我想创建一个新的专栏df$group2，它将重叠的组重新分类为相同的组。例如，df$g

浏览 2提问于2013-03-06得票数 11

回答已采纳

1回答

如何判断一个时间点是否存在于一组前后时间之间？

、、

当我试图回答一个关于堆栈溢出()的问题时，我遇到了如何完成它的问题。也就是说，如何测试一组前后时间点之间是否存在时间点。帖子中的用户没有做一个可重复的例子，但这是我想出来的。我想用dataframe emtek_file中的前后时间测试hidenic_file$hidenic_time中的时间点，并返回与每个emtek_id的时间帧相匹配的hidenic_id。发帖者没有提到这一点，但似乎每个emtek_id都有可能返回多个hidenic_id。 library(zoo) date_string <- paste("2001", sample(12, 10, 3), s

浏览 0提问于2013-06-21得票数 1

回答已采纳

1回答

删除列表元素之间的交集

、

如果我有3个或更多数据帧列表。每一个都有区间，然后我想找出这些区间之间是否有交集。如果它们相交，我们需要删除交叉点。例如 d1<-cbind(st=c(1,4,6),ed=c(7,8,10)); d2<-cbind(st=c(4,8,17),ed=c(7,12,20)); d3<-cbind(st=c(1,8,25),ed=c(3,13,30)) l<-list(d1,d2,d3); l 为了便于可视化，我绘制了它们，黑色间隔来自d1，蓝色d2和红色d3。其思想是删除相交区域，例如d1中的间隔1和d2中的1以及d3相交中的1。我希望结果是 d2; st ed

浏览 2提问于2018-06-28得票数 2

1回答

具有部分字符串匹配的两个Pandas数据帧之间的映射/压缩

、、、、

我有两个数据帧，每个数据帧大小约为1,000,000行。两者共享一个公共的'Address‘列，我用它来连接数据帧。使用这个连接，我希望将信息从dataframe1移动到dataframe2，我称之为“details”。 df2.details = df2.Address.map(dict(zip(df1.Address,df1.details))) 然而，address列并不表现出完全的通用性。我尽了最大努力清理，但仍然只能移动大约40%的数据。有没有办法修改上面的代码以允许部分匹配？这一次我完全被难住了。数据非常简单，如所述。两个小数据帧。虚构的样本数据如下： df1 Addr

浏览 1提问于2019-04-02得票数 0

1回答

R: mapply在两个列表的对象上，并返回数据帧列表

、、、

我有两个GRange列表，我尝试对每个列表组合应用countOverlaps函数，并返回一个结果列表，如下所示： library(GenomicRanges) gr1 <- GRanges(seqnames = c("chr1", "chr2"), ranges = IRanges(c(7,13), width = 3), strand = c("+", "-")) gr2 <- GRanges(seqnames = c("chr1", "chr3"), ranges = IRanges

浏览 0提问于2015-10-22得票数 0

1回答

比较基因组学:如何比较序列的范围

、、

我用对两种细菌进行了基因组比较。这个工具给出了两个细菌之间常见的DNA序列区域，但我最感兴趣的是知道在一个缺乏第二个的细菌中存在哪些CDS。通过使用R，我设法使用VISTA信息生成一个data.frame，其中包括第一个细菌所独有的碱基区域(范围)。这些区域必须含有第二个缺失的基因(CDS's)。 head(rango_vacio) # Regions (mapped bp) exclusive to the first bacteria V1 V2 11552 13259 13365 13263 37168 37169 ..... .....

浏览 0提问于2015-03-26得票数 2

1回答

R中数据帧中的重叠间隔

、

我试着用R来研究基因组数据，我看到了一些关于两个数据和重叠间隔的很好答案的主题。我的问题是，我有一个具有重叠间隔的数据帧，我想合并它，即： chrom start stop 5 100 105 5 100 105 5 200 300 9 275 300 9 280 301 我想以这样的方式结束： chrom start stop 5 100 105 5 200 300 9 275 301 我也试图变得更好

浏览 3提问于2015-10-28得票数 7

回答已采纳

2回答

无累积缓冲器的OpenGL运动模糊

、、、

我试图使用OpenGL实现一个真实的运动模糊，但是没有积累缓冲区(因为它不能在我的显卡上工作)。以下是我对实现的想法：为每个“模糊”设置(临时)空白帧缓冲区和纹理的固定数组每当遇到新帧时，将第一个元素移到末尾，然后呈现到该框架缓冲区。第一帧具有1/n不透明度，第二帧具有1/(n / 2)，等等。直到最新的那个有了一个。有没有比这更简单/更快/更优化的方法？或者这是最好的解决方案？

浏览 5提问于2013-05-08得票数 1

3回答

在R应用循环中按范围合并

、、、

我在这里发布了一个问题：关于根据一个文件中的一个数字合并两个文件的问题，该文件落入第二个文件的范围内。到目前为止，我还没有成功地拼凑代码来实现这一点。我遇到的问题是，我使用的代码逐行比较文件。这是一个问题，因为1.)一个文件比另一个文件长得多，并且2。)我需要较短文件中的行扫描较长文件中的每个范围对-而不仅仅是同一行中的范围。我一直在使用原始问题中发布的函数，我觉得应该有一种方法将其应用到更通用的循环中，将第一个文件中的每一行与第二个文件中的每一行进行比较，但我还没有弄清楚。如果任何人有任何建议，我将不胜感激。 *已编辑。数据的性质是这样的:每个范围不一定是唯一的，尽管大多数都是唯一的。它

浏览 3提问于2012-08-10得票数 5

回答已采纳

1回答

GenomicRanges包中重叠段的宽度

、、、

我正在使用GenomicRanges来查找来自一个实验的哪些记录与来自另一个实验的记录重叠。 head(to_ranges1) knowngene chr strand Start Gene 1 uc001aaa.3 chr1 + 9873 16409 DDX11L1 2 uc001aac.4 chr1 - 12361 31370 WASH7P 3 uc001aae.4 chr1 - 12361 21759 WASH7P library(GenomicRanges) object_one<-with(to_ranges, GRanges(c

浏览 0提问于2013-02-04得票数 4

回答已采纳

1回答

R-将大型数据帧拆分为几个较小的日期帧，对每个数据帧执行fuzzyjoin并输出到单个数据帧

、、、

我有两个数据帧，我需要使用fuzzyjoin函数连接它们。我已经尝试在整个数据帧上执行该函数，但没有足够的内存。其中一个数据帧UPRN充当保存地址的唯一标识符的源数据，另一个地址保存需要与该唯一标识符匹配的地址。我意识到有相当多的问题与以下相关，但我发现似乎没有一个能回答我的问题。我希望将大约45000行的地址拆分成可管理的块(读取较小的数据帧)，例如5000行，仅按行位置。然后我想使用这些小数据帧来模糊连接到UPRN数据帧。例如，Address1读取前5000行，应用fuzzyjoin并输出Join1，然后Address2读取第5001到10000行，应用fuzzyjoin并输出Joi

浏览 15提问于2020-10-15得票数 1

回答已采纳

1回答

带一定条件的findoverlap区域

我尝试使用findOverlap来解决这个问题，但是我只能找到没有条件的重叠区域，所以如果我有一些条件来选择数据。我该怎么办？假设我有两个数据帧，如下所示数据帧a Sample, start, stop, event, probe, length, length/probe, region CNV1234, 2000, 3000, CN gain, 23, 235, 9, intron CNV1534, 1200, 1800, CN loss, 60, 600 10, exon 数据帧b Sample, start, stop, event, probe, lengt

浏览 4提问于2013-08-13得票数 1

2回答

在pandas中合并两个数据帧时如何“模糊”匹配字符串

、

我有两个数据帧df1和df2。 df1 = pd.DataFrame ({'Name': ['Adam Smith', 'Anne Kim', 'John Weber', 'Ian Ford'], 'Age': [43, 21, 55, 24]}) df2 = pd.DataFrame ({'Name': ['adam Smith', 'Annie Kim', 'John Weber', &#

浏览 63提问于2018-03-06得票数 5

回答已采纳

2回答

在写入数据帧时，从Spark到数据库的连接数是多少？

、、

在下面的场景中，我搞不懂Spark会建立多少到数据库的连接：假设我有一个Spark程序，它只在一个具有一个执行器的工作节点上运行，一个数据帧中的分区数是10，我想将这个数据帧写入Teradata。由于并行度是10，但是executor只有1，那么在保存数据时会建立10个连接，还是只有1个连接？

浏览 3提问于2020-11-05得票数 1

1回答

MYSQL -返回的行数等于连接数？

我的查询是被发送到数据库一次，然后在一个镜头中得到所有结果的列表，然后循环通过，还是每次都必须从DB请求下一行？实际上，减少预期返回的行数是否意味着对DB的连接/调用减少，这意味着我的DB能够同时处理更多的连接，还是数据库连接的数量不取决于返回的行数？

浏览 0提问于2015-05-25得票数 0

1回答

在基因起始或结束的200 to内重叠到子集的GRanges

、

我有两个GRanges数据，我想通过重叠对它们进行分类，这样在基因开始或结束的200 of之内也会出现重叠。我使用了以下命令subsetByOverlaps(gr2, gr1, type = "equal", maxgap = 200000) 使用类型=“相等”和maxgap= 200000来获得我想要的结果，我想知道这是否是回答我问题的正确方法。我不确定我是否完全理解maxgap的用法，因此希望您的帮助或任何建议，以获得预期的结果。提前感谢最佳，S

浏览 10提问于2022-03-22得票数 1

回答已采纳

3回答

Websocket帧大小限制

、、、、

我正在通过websockets发送大量JSON数据。JSON可能有超过1000个条目。由于帧大小的限制，Websocket协议自动将JSON拆分为帧，这是无法帮助的。因为我们不能更改websockets的帧大小。问题：当我试图使用JSON.parse计算我的JSON时，它会给我一个解析错误，这很明显，因为框架不是完整的JSON对象。所有这些都发生在Websocket onmessage事件回调中。我如何才能在不同的帧中接收到巨大的JSON而仍然能够解析它呢？我已经尝试连接onmessage中的帧，但是错误仍然存在。侧问题：如何正确地连接一个破碎的JSON？

浏览 1提问于2013-12-18得票数 37

2回答

Pandas列

、

我连接了几个Pandas数据帧，现在我有一个更大的数据帧。初始数据帧如下所示 Time Node Packets 0 1 0 0 2 1 1 0 4 1 2 0 6 1 3 0 8 1 4 0 在运行df_total = df_total.groupby(['Time'])['Packets'].mean()之后，连接后的文件如下所示 Time 1.0 0.000000 2.0 1.2

浏览 1提问于2018-12-25得票数 0

1回答

R中矩阵行的多到多比较

、、、、

我试图用R将两个大数据帧的数据关联起来。数据是这样组织的：第一数据帧包括~5M行。每一行都需要与第二数据帧中的几行(通常超过1行)进行比较。第二个数据帧约为100,000行，每一行也对应于数据帧1中的多个条目。我尝试使用merge()连接这两个数据帧，并对新数据帧的每一行执行关联，但这会导致内存分配问题。生成的数据帧可能大于50m行，这太大了，无法处理。您是否有任何建议，在没有生成一个连接的数据框架的情况下，对多个比较进行比较？我看了一下apply衍生品，但找不到我想要的。

浏览 3提问于2014-11-17得票数 0

回答已采纳

1回答

当数据连续时将一些行合并为一个行。

、、

我有一个，它作为数据加载到R.基因组坐标中，看起来如下所示： chrom start end chrX 400 600 chrX 800 1000 chrX 1000 1200 chrX 1200 1400 chrX 1600 1800 chrX 2000 2200 chrX 2200 2400 没有必要保留所有的行，将其压缩成这样会更好： chrom start end chrX 400 600 chrX 800 1400 chrX 1600 1800 chrX 20

浏览 4提问于2016-12-06得票数 2

回答已采纳

1回答

按R中的分组行折叠/组合日期范围

、

我有一个像这样的数据文件： ID Group Start Date End Date 1 A 2018-08-08 2018-08-09 1 A 2018-08-07 2018-08-08 1 A 2018-08-05 2018-08-07 1 B 2018-08-08 2018-08-09 1 B 2018-08-07 2018-08-08 2 A 2018-08-08 2018-08-09 2 A

浏览 3提问于2018-09-20得票数 0

回答已采纳

2回答

无法在R/Bioconductor中获取IRange的终值

、

我是IRanges包的新手，在获取IRange的最终值时遇到了麻烦。我能够毫无问题地获得start和width的值，这让我有点困惑，我的end的大小写/拼写与标题行匹配。有没有其他人遇到过这种情况，或者请找出我做错了什么？谢谢，非常感谢！ library(IRanges) > test=IRanges(100645,100664) > test IRanges of length 1 start end width [1] 100645 100664 20 > test@start [1] 100645 > test@width [1] 20 &g

浏览 1提问于2012-03-17得票数 1

3回答

如何在scala中将多个数据帧组合在一起？

、、

我有几个数据帧，其中包含单列。假设我有4个这样的数据帧，都有一列。如何通过组合所有数据帧来形成单个数据帧？ val df = xmldf.select(col("UserData.UserValue._valueRef")) val df2 = xmldf.select(col("UserData.UserValue._title")) val df3 = xmldf.select(col("author")) val df4 = xmldf.select(col("price")) 为了结合起来，我尝试这样做，但它不起作用： v

浏览 72提问于2018-07-13得票数 0

3回答

计算R中的单例数量

、

我有一些RNA-seq数据，需要计算单例的数量。我们将单例定义为附近没有任何其他读取映射的读取(距离两侧100个碱基)。我有一个数据帧，其中包含每次读取的开始坐标和结束坐标。我正在使用R来做这件事。我现在已经写了这段代码，但是应用是不正确的，因此给出了一个错误。 begin_end <- data.frame(begin_coordinate, final_coordinate) apply(begin_end, 1, function(x) x[,1]-(x-1)[,2]) 数据帧的前几行是： > head(begin_end) begin final 1

浏览 3提问于2015-09-30得票数 3

1回答

视频猫耳滤波器太晃动

、、、、

我正在做一个视频过滤器，增加猫耳朵给你像Snapchat镜头。我正在使用opencv4和Dlib。Dlib负责检测脸部。问题是，由于检测坐标的变化，每个帧的滤波器都太过晃动。我试着每2-3帧换一次耳朵，但变化不大。 while True: _, frame = cap.read() ear_mask.fill(0) gray_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) faces = detector(frame) for face in faces: ear_width, ear

浏览 1提问于2019-07-21得票数 0

回答已采纳

1回答

齐柏林飞艇是如何结合在一起的？

、、、

我对分布式数据处理非常陌生，我想了解齐柏林飞艇是如何与星火集群通信的？想知道齐柏林飞艇如何能够检索前几段中生成的数据帧，然后在当前代码中使用它。另外，当多个用户尝试使用相同的齐柏林飞艇时，会发生什么，就像在不同的笔记本上连接同一个火花一样。 “火花”如何知道先运行哪个作业，并将所有数据帧保存在内存中？我用的是纱线。

浏览 0提问于2017-09-08得票数 4

回答已采纳

2回答

实时辉光着色机混淆

、、、

因此，我有一个相当简单的实时2d游戏，我试图添加一些不错的光辉。要把它归结为最基本的形式，它只是简单地画在黑色表面上的圆圈。如果从hsv颜色空间角度考虑场景，所有颜色(黑色除外)的"v“值都是100%。目前，我有一种“积累”缓冲区，其中当前帧与前一帧连接。它的工作方式是使用两个屏幕外缓冲和一个黑色纹理。缓冲一号激活画的线和点缓冲器一号失活缓冲2号激活缓冲两个内容，绘制为一个满屏幕四角黑色纹理在全屏幕上略显透明缓冲区一内容绘制缓冲器二失活屏幕缓冲区激活缓冲区2的内容绘制到屏幕现在，到目前为止，所有“滞后”都来自cpu

浏览 4提问于2016-01-02得票数 2

2回答

在这种情况下我应该使用顶点着色器吗？

、、、、

我想创造一个运动模糊效果，通过渲染和附加混合移动对象在他们的轨迹在一个过程的过程中的多个点。我认为确定绘制位置的计算可以在顶点着色器中执行。但在我看来，如果我想避免在每次渲染中传递几何图形，我可能需要使用几何图形着色器。我的最佳行动方针是什么？我决定在以下两者之间作出决定：手工组装每个子帧的顶点数据，并每次将其传递给GPU (如果这样做，我不需要使用顶点程序)会发送几何图形和速度值。我可以计算顶点着色器中的中间位置，尽管我不确定如何指定某个速度值分配给特定的原语组。我需要为每个子帧渲染发送一次相同的顶点，因为顶点着色器不能创建新的顶点。使用几何着色器为所有子帧生成所有的几何。在整个渲染过

浏览 6提问于2012-01-07得票数 4

回答已采纳

3回答

R图重叠时间间隔

、、

我有一个人的列表，以及他们一天中工作的开始和结束时间。我想绘制一条曲线，显示在一天中任何给定时间工作的总人数。我所能做的就是为一天中的每一分钟添加1440个额外的条件布尔变量，并对它们求和，但这似乎非常不优雅。我想知道是否有更好的方法(积分？)。下面是使用我的样本数据生成df的代码： sample_wt <- function() { require(lubridate) set.seed(10) worktime <- data.frame( ID = c(1:100), start = now()+

浏览 2提问于2014-09-12得票数 9

1回答

在NaN行拆分数据帧

、、

已经有了一个答案，可以处理一个相对简单的数据帧，这个数据帧被赋予了。但是，我手头的数据帧有多列和大量行。一个数据帧包含沿axis=0连接的三个数据帧。(一个的底端附加到下一个的顶部。)它们由一行NaN值分隔。我如何通过沿着NaN行拆分数据来从这个数据中创建三个数据帧？

浏览 1提问于2017-02-08得票数 4

1回答

GeoPandas .sjoin大型结果表

、、

我有两个数据帧，每个数据帧都包含几何列。第一个数据帧包含POLYGONS，第二个数据帧包含POINT。我的目标是加入数据帧，以便将每个POINT分配给相应的POLYGON。DF_polygons有113704行，DF_points有23223行。我使用以下代码连接数据帧(还尝试了'within'和'contains')： points_in_polygons = gpd.sjoin(DF_points, DF_polygons, op='intersects') 问题是，它返回的结果在所有情况下都近似为3.000.000 rows。会有什么问

浏览 1提问于2020-06-01得票数 0

1回答

GRanges -如何获得每个碱基的得分向量(R /生物信息学)

、、

我正在学习R中的GRanges文库(Bioconductor)来处理我的基因组数据。 my GRange looks like: chrI [1, 10] * | 100 chrI [11, 20] * | 200 我想得到一个包含GRange length 分数的向量，但是我总是在GRange中得到每行的分数。 myvec <- mygrange$score # return [100, 200] myvec <- coverage(mygrange, weight="score") # return [100, 200] myvec <- as.v

浏览 2提问于2017-06-21得票数 2

2回答

寻找基因间区域

、、

我想提取染色体的基因间坐标。我编写了大量代码，但由于我对这些包并不熟悉，所以我不确定是否遵循了这里的正确逻辑： library(IRanges) library(GenomicFeatures) library(TxDb.Hsapiens.UCSC.hg19.knownGene) txdb = transcriptsBy(TxDb.Hsapiens.UCSC.hg19.knownGene, by = "gene",use.names=TRUE) #For example, only I am interested in intergenic coordinates in ch

浏览 2提问于2015-03-25得票数 2

回答已采纳

2回答

查找R中重叠范围的索引

、

我的框架看起来像这样 4 8 6 9 1 2 5 7 10 14 3 9 其中第一列是度量的开始，另一列是度量的结束。现在我想返回与特定行部分重叠的那些行的索引。示例将行1。索引将是2,4,6 -因为它们部分重叠。我需要非常频繁地进行这种比较，因此一个有效的解决方案将是很好的请注意，我不仅在寻找部分重叠，而且还在寻找完全重叠(3 9)。

浏览 0提问于2015-02-08得票数 1

1回答

如何在Spark中加速大数据帧连接

、、

我在Spark 2.4中有两个数据帧，它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3加载数据帧生成的，另一种是加载一堆数据帧并使用sparkSQL生成大型数据帧。然后我将这两个数据帧多次连接到多个数据帧中，并尝试将它们作为CSV写入S3……然而，我看到我的写入时间超过了30分钟，我不确定它是否正在重新评估数据帧，或者我是否需要更多CPU来完成此任务。尽管如此，我还是希望有人能对如何优化这些写入时间提供一些建议。

浏览 12提问于2020-05-14得票数 0

回答已采纳

1回答

如何用ggplot2绘制重叠范围

、、、

我正试着把我的头放在ggplot2上。特别是，我试图找出是否有一种更好(更优雅、更简单)的方法来创建Bioconductor IRanges包中的情节(发现，第12页上的图，第11页上的代码)。在小插曲中，情节由以下代码生成： plotRanges <- function(x, xlim = x, main = deparse(substitute(x)), + col = "black", sep = 0.5, ...) +{ + height <- 1 + if (is(xlim, "Ranges")) + xlim &l

浏览 1提问于2014-02-02得票数 8

回答已采纳

2回答

findOverlaps和countOverlaps的联合输出

、

我有两组IRanges要比较。我的目标是获得一个有重叠位置的输出，如果存在重叠，如果它们不重叠的话，作为负开始列出的范围的偏移。至少，如果我不能得到偏移量，我想要一个"0“来表示没有重叠。例如： xx<-IRanges(start=c(2,9,19,31,45), end=c(3,11,23,35,49)) IRanges of length 5 start end width [1] 2 3 2 [2] 9 11 3 [3] 19 23 5 [4] 31 35 5 [5]

浏览 3提问于2015-12-29得票数 1

回答已采纳

1回答

在电线上咯咯作响

、、

我正在考虑使用gob (“编码/gob”)来序列化网络协议中的数据，我一直在四处搜索，似乎找不到任何解决这些问题的方法：消息帧-- gob文档给人的印象是，您可以简单地将TCP连接封装在gob解码器中并读取。但是，如果你只收到半条信息会发生什么呢？gob能以某种方式处理这个问题吗?还是我不得不添加一个消息帧并将消息数据复制到一个缓冲区中，以便gob进行非序列化？不同类型的消息-协议有不同类型的消息，如何最好地用gob处理？在每个gob之前都有一个标识符来指示数据的类型？通过将所有消息放入包含所有不同消息的字段的“主”消息中(将其简化为一种消息类型)？我尝试了后者(更简单)，它似乎有巨大的开

浏览 2提问于2015-06-29得票数 2

回答已采纳

1回答

从R内到床文件上的堆积

、

我在R中有一个数据表，我想要计算重叠窗口的数目。这本质上是一个队列命令，似乎是可以使用床头工具完成的，但我不知道如何做到这一点，而不离开R。是否已经有了R函数来做这件事，或者对什么是有效的方法有任何建议？如果这有帮助的话，下面是我想做的一个小例子。提前感谢！投入： chrom start end 1 1 100 1 50 150 返回： chrom start end count 1 1 49 1 1 50 100

浏览 4提问于2020-06-25得票数 2

回答已采纳

1回答

有没有一种快速的方法可以将间隔(开始和结束)转换为R中这个区间中的数字列表

、

我有一个文件，其间隔值为50M行，如下所示： >data start_pos end_pos 1 1 10 2 3 6 3 5 9 4 6 11 我希望有一个位置出现表，这样我就可以计算间隔文件中每个位置的覆盖率，如下所示： >occurence position coverage 1 1 2 1 3 2 4 2 5 3 6 4 7 3 8 3 9 3 10 2 11 1 在R中有什么快速和最好的方法来完成这个任务吗？我的计划是循环遍历数据，并将每个间隔中的序列串联成一个向量，并将最后的向量转换为

浏览 2提问于2022-11-08得票数 0

回答已采纳

3回答

使用一个数据帧对来自R中另一个数据帧的数据范围求和

、

我正在从SAS迁移到R。我需要帮助找出如何汇总日期范围的天气数据。在SAS中，我获取日期范围，使用数据步骤为范围中的每个日期(使用startdate、enddate、date)创建一条记录，与天气合并，然后汇总(VAR hdd cdd；CLASS=startdate enddate sum=)以汇总日期范围的值。 R代码： startdate <- c(100,103,107) enddate <- c(105,104,110) billperiods <-data.frame(startdate,enddate); 要获得以下信息： > billperiods sta

浏览 1提问于2013-03-26得票数 2

3回答

Pandas Concat增加了行数

、、、

我正在连接两个数据帧，所以我想将一个数据帧定位到另一个数据帧。但首先，我对初始数据帧进行了一些转换： scaler = MinMaxScaler() real_data = pd.DataFrame(scaler.fit_transform(df[real_columns]), columns = real_columns) 然后连接： categorial_data = pd.get_dummies(df[categor_columns], prefix_sep= '__') train = pd.concat([real_data, categorial_data],

浏览 2提问于2018-05-16得票数 12

回答已采纳

1回答

替换h5py文件中的组会不断增加大小

、、、

我有一些数据帧需要存储在HDF5文件中，既可以单独存储，也可以连接。我正在尝试使用组来保留单个数据帧。使用以下命令保存数据框： df1.to_hdf(filename, key="S1", mode="a", complevel=9) df2.to_hdf(filename, key="S2", mode="a", complevel=9) ... 然后将连接后的数据帧保存为： df_concatenated = pd.concat([df1, df2]) df_concatenated.to_hdf(filename, key

浏览 32提问于2021-09-17得票数 1

2回答

在IX上调用Pandas缓存值吗？

、

我注意到在大型熊猫数据帧上使用IX时出现了一些奇怪的行为。当我连续对同一数据帧调用.ix 50次时，它的运行速度比我对50个不同数据帧调用.ix时快10倍。在.ix上有没有在幕后进行缓存？我注意到底部循环会使我的内存使用量加倍。为什么内存会增加？有什么方法可以修改这个行为吗？请注意，如果你直接使用numpy，它在两种情况下都运行了7.4秒，内存增加为0，这让我相信pandas正在缓存。显然，您永远不会想对每个单独的元素调用.ix ... import pandas as pd import numpy as np import datetime as dt print 'pa

浏览 0提问于2012-12-04得票数 1

回答已采纳

3回答

如何在R中实现多个数据帧与单个数据帧的左连接自动化

、

我有206个以国家命名的数据帧(法国、德国、香港.)在这206个文件中有相同的37个变量，而另一个数据帧名pf有9个变量。我想做这206个数据帧与PF数据帧的左连接，逐个选择所有变量并存储在其他数据帧中。左联接基于两个条件( hcom_id=tnow_id和city=region)。hcom_id和city是206个不同数据帧中的变量，tnow_id和区域在PF中。我使用sqldf包来连接:一个<-sqldf(“select*从法国左加入PF on (FRANCE.hcom_id=pf.tnow_id和FRANCE.city=pf.region)") 我很难用循环实现它的自动

浏览 0提问于2016-07-25得票数 2

1回答

在Pandas中使用迭代连接数据帧，但它不起作用

、、

我有几个数据帧或多或少地被相同的MultiIndex索引(每个数据帧上可能缺少一些值，但总行超过70K，缺少的值总是小于10)。我想要附加/合并/连接到所有它们一个给定的数据帧(使用相同的索引)。我尝试使用带有元组的for迭代来完成此操作，如下面的示例所示。但是，最后，我的所有数据帧都不会合并。我提供了一个发生这种情况的简单示例。为什么它们不合并？ df1 = pd.DataFrame(np.arange(12).reshape(4,3), index = ["A", "B", "C", "D"], columns = [

浏览 9提问于2020-08-27得票数 0

回答已采纳

1回答

在多线程中同时加载不同的数据帧

、、

我有一个flask服务器，它对数据帧执行读写查询。我有一个缓存机制(使用cacheout库)在收到请求时缓存数据帧，然后在接收到对相同数据帧的请求时使用缓存的数据帧。目前，我正在使用一个锁，它使所有线程依次加载它们(不同的)数据帧，然后进一步处理加载的数据帧。我想要的是，当我收到对不同数据帧的多个请求时，每个线程(对于每个请求)应该同时(使用pandas.read_excel)将数据帧加载到内存中，而不是顺序加载。目前我使用的是一个简单的锁，它可以确保相同的数据帧不会被加载两次，但我也需要并行加载多个数据帧。 ` `def read_query_request(query，file_pa

浏览 0提问于2019-02-08得票数 0