在数据帧中通过字符串合并行？

、、

我正在从mongoDB读取数据到pandas数据帧..db = client.test_insertdatabase这将是mongoDB的dataset2集合中的所有文档然后我将它转换为pandas数据帧。接下来，我将存储最后插

浏览 1提问于2015-12-08得票数 2

1回答

、、、

我有一个电话号码簿，存储部门，标题，电子邮件和分机在单独的行，共同的东西是名字和姓氏。我已经组合了名字和姓氏作为关键字，并希望合并行到您将结束与名称，标题，部门，电子邮件和分机的单行。我试着为每个键创建一个字典，但在实际的合并过程中我没有任何运气。这就是我正在编写代码的地方。我必须首先清理数据以获得适当的列。

浏览 7提问于2019-04-06得票数 0

回答已采纳

2回答

合并DataFrames Python

、、、、

我有3个数据集，每个数据集有3列和超过1000行。数据是关于两种症状组合的计数。例如，疼痛和发烧，计数为2。

浏览 24提问于2021-02-15得票数 0

回答已采纳

1回答

.)), tidied = map(model, tidy)) 我在输出数据帧中得到了所需的行数(22，匹配不同级别的'event')。但是我想要“取消嵌套”tided列，这样它们就是fitted.models中的附加列。我的数据帧： df<-structure(list(EC..mS. = c(0.71, 0.828, 1.032, 1.134, 1.13, 1.205, 1.221, 0.756, 0.823, 0.731

浏览 57提问于2021-08-16得票数 0

2回答

将csv文件拆分成多个txt。文件

、

我有一个很大的csv数据集，我想将其拆分为多个txt文件。我希望每个文件的名称来自ID列，每个文件的内容来自Text列。我的数据看起来像这样。

浏览 25提问于2020-06-15得票数 0

1回答

通过组合其他数据帧中出现的两个变量来过滤数据帧

、、、

假设我有两个数据帧，DF1和DF21 Drue 12344 Gimmy 1222现在我想通过唯一的组合( CustomerID和PurchaseCode在DF2中)来过滤CustomerID。所以我的过滤数据框架

浏览 0提问于2019-03-20得票数 0

1回答

apache箭头-并行处理的充分性

、、

我有一个庞大的数据集，并且正在使用Apache进行数据处理。使用Apache，我们可以将与火花兼容的数据帧转换为与Pandas兼容的数据帧，并在其上运行操作。通过转换数据帧，它是实现了在星火中看到的并行处理的性能，还是它的行为像潘达斯一样？

浏览 5提问于2020-07-03得票数 4

回答已采纳

1回答

基于子字符串的数据帧合并- python

、、

我有两个数据帧，其中我想根据一个df中的一个列合并，在第二个df中有子字符串，我怎么做呢？这是第一次数据Jasmine 1023 hawaiBudRose 4409 Miami第二数据Jasmine 1023LD Hawai Lily 2457MH Washington

浏览 1提问于2021-05-02得票数 0

回答已采纳

1回答

当订阅带有params的集合时，返回undefined

、

例如，我正在尝试呈现集合中的1个项目：Tracker.autorun(() => {Meteor.publish("items", (l, s) => { // returns: undefined undefined//

浏览 6提问于2018-04-16得票数 0

1回答

(mpeg)视频的帧是相关的还是独立的

、、、

我试图在视频加密中获得并行性，这意味着我试图使视频加密过程并行化。对于并行操作，数据必须是独立的。所以我的问题是视频的帧是独立的还是独立的？也就是说，是否可以单独或并行地处理单独的帧？

浏览 2提问于2015-07-18得票数 0

2回答

Apache Spark处理能力和资格

、、、

在我的例子中，我正在抓取小的数据集(作为MongoDB的JSON文件)。这些文件实际上与相同的实体相关，但它们可能具有不同的结构(与其他JSON相比，同一集合中的特定JSON可能包含更多或更少的键/值对)。我正在尝试的是对这些数据文件运行机器学习(分类/回归)算法，并从中获取信息。当你考虑这种情况时，你认为Spark有资格在集群环境中通过并行处理来加速吗？或者你认为我应该收敛到一些其他的选择？

浏览 5提问于2017-06-11得票数 0

1回答

如何在多个dataframe lambda函数上实现dask映射分区？

、、、、

我已经使用pandas实现了两个数据帧之间的模糊字符串匹配算法。我的问题是如何将其转换为使用多核的dask操作？我的程序在纯python上运行大约3-4天，我想并行操作以优化时间成本。我已经使用多处理包通过以下代码提取了内核数量：emb = pd.read_csv('my_csv

浏览 3提问于2018-05-19得票数 0

1回答

我们是否必须显式地使用RDDs和诸如foreach、parallelize之类的操作来在pyspark中执行并行处理？

、、

如果我们对group by，merge，for两个数据帧使用普通的python操作，而不是显式地使用map，reducebykey，groupbykey等，是否存在性能差异？前者(正常操作)是简单的顺序处理，而后者是并行处理吗？这是否意味着要激活并行处理，我们必须显式使用RDDs？正常的数据帧使用不是并行处理(尽管是在pyspark中完成的)？

浏览 1提问于2021-10-26得票数 0

1回答

Scala中的Spark分组贴图UDF

、、

我正在尝试编写一些代码，使我能够在数据帧的一组行上计算一些操作。在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我的临时解决方案是生成一个关键字列表，该列表将对我的组进行编码，这将允许我过滤数据帧并对数据帧的每个子集执行操作。我可以并行化循环，但我相信这

浏览 2提问于2020-04-08得票数 2

1回答

Spark中操作的第一阶段只由一个执行者运行

、、

我有一个spark程序运行，YARN作为主程序，在客户端模式下有3个执行器这一阶段预期会出现这种行为吗？我是否应该能够与分配的所有executor并行运行此阶段？

浏览 2提问于2020-12-01得票数 0

2回答

如何实现余弦相似度计算的并行化

、、、、

我通过读取一个目录中大量文件生成了一个很大的数据帧。我已经设法并行化了在解析中读取文件的部分。我获取该数据并为下一步生成数据帧。这是计算相似度矩阵。现在，我正在尝试计算数据框的行之间的余弦相似度。由于它是一个大数据帧，它需要很长时间(几个小时)才能运行。我如何并行化这个进程。

浏览 0提问于2015-03-16得票数 2

4回答

查找行的出现次数

在R中，我想以最快的方式找到数据帧中唯一行的出现次数。我有200多万行数据，但是我的16 of内存的机器table和ftable的数据存储速度很快，但是唯一组合的数量超出了它们的处理能力，所以我收到了一条错误消息。史蒂夫

浏览 0提问于2011-05-07得票数 2

2回答

在R中检查数据帧中的值

、、

我正在尝试检查真值a = 10是否包含在数据帧中或是否包含在数据帧中。如果它包含在数据帧中，那么我需要计算该数据帧的长度，否则我想分配长度0。假设我检查的值是10 k1 = c(1,2,3,5,6) k2 = c(10,12,13,15,16,18) 例如，对于k1集合，我希望获取长度0，而对于k2，长度必须为6 我尝试使用以下代码来完成这项工作library(tidyver

浏览 14提问于2019-02-14得票数 1

回答已采纳

1回答

循环并行化时的错误

、

我对并行处理很陌生，并试图并行化一个for循环，在这个循环中，我通过将所述数据帧中的列与另外两个数据帧相匹配来在数据帧中创建新列。j，我试图在其中创建列的数据帧是400000 x 54。A和c，与j匹配的两个数据帧分别为5000x12和45000 x8。下面是我尝试并行化之前的初始循环： for(i in 1:

浏览 2提问于2021-05-02得票数 0

回答已采纳

2回答

给定2个数据帧在第二数据帧中搜索匹配值和返回值

、

给定2个数据帧，例如链接示例，我需要将来自df2的“索引收入”添加到df1。我需要在df2中通过df1组合键进行搜索，如果有匹配，则将值返回到df1中的新列中。df1和df2中的实例数量不同，df1中大约有700行，df2中有1000行。我可以用vlookup在excel中做到这一点，但我现在正尝试将其应用到python代码中。 ?

浏览 17提问于2020-10-19得票数 0

回答已采纳

点击加载更多