我有一个非常大的数据集(20GB+),我需要从列A中选择所有不同的值,其中列B中的每个不同值在列B中至少有两个不同的值。 对于以下数据帧: | A | B |
|---|---|
| x | 1 |
| x | 2 |
| y | 1 |
| y | 1 | 应该只返回x,因为它在列B上有两个不同的值,而y只有一个不同的值。 下面的代码做到了这一点,但由于数据集非常大,因此需要很长时间(以小时为单位): def get_values(list_of_distinct_values, dataframe):
valid_values = []
for value in list
我有一个列表和一个数据帧df: test_list=[[A,B,C],[A,B,D],[A,B,E],[F,G]] 数据帧是 ID
B
C
D
E List of list的元素代表层次结构.I想要在数据帧中创建一个新的列"type“,其值代表其父级。 我的最终数据帧应该是这样的: value parent
B A
C B
D B
E B 我有一个非常大的数据集,test_list也非常大
我有两个数据帧:
DF_1
ID Value1
1 Lion
2 Cat
3 Elephant
4 Lion -s
DF_2
Value2 Assign
Lion - X AD
Cat as FD
Elephant -92 DS
Viper AB
Fish ws r DF
我想匹配DF_1的Value1和DF_2的Value2,对于DF_2中DF_1的任何相似值,在新的输出数据帧中分配DF_2的from Assign列(基于Value1使用me
我用Python从csv文件中加载了两个数据帧。 其中之一包含以下类型的数据: Well Zones Inflow
E18 A 0.45
E23 B 0.33
E25 C 0.2
E18 B 0.2
E23 A 0.67
E25 D 0.12
E23 B 0.2
E18 A 0.67
E25 D 0.12 另一种是: Well Zones Distance
E18 A
我想要做的是按列A分组,然后取前两行的和,然后将该值指定为新列。示例如下: DF: ColA ColB
AA 2
AA 1
AA 5
AA 3
BB 9
BB 3
BB 2
BB 12
CC 0
CC 10
CC 5
CC 3 所需的DF: ColA ColB NewCol
AA 2 3
AA 1 3
AA 5 3
AA 3 3
BB
我有几个数据帧,其中包含单列。假设我有4个这样的数据帧,都有一列。如何通过组合所有数据帧来形成单个数据帧?
val df = xmldf.select(col("UserData.UserValue._valueRef"))
val df2 = xmldf.select(col("UserData.UserValue._title"))
val df3 = xmldf.select(col("author"))
val df4 = xmldf.select(col("price"))
为了结合起来,我尝试这样做,但它不起作用:
v
我有两个数据帧。Dataframe A为形状(1269345,5),而dataframe B为形状(18583586,3)。
Dataframe A看起来:
Name. gender start_coordinate end_coordinate ID
Peter M 30 150 1
Hugo M 4500 6000 2
Jennie F
我有一个包含许多DNA序列的文本文件,每个序列都在单独的一行上,有20个碱基对。我希望将文件读入到一个数据帧中,每个基作为它自己的列,而不使用for循环或其他需要迭代整个文件的东西,因为这个文件非常大。 我尝试使用"“作为分隔符,但它只会导致整行被处理成一列。我也试过用".“和"\w“,这两个都不是我想要的。 例如,对于具有以下内容的文件: ACGT
CGTA
GTAC
TACG 数据帧应如下所示: 1 2 3 4
1 A C G T
2 C G T A
3 G T A C
4
假设有人想要从数据帧中删除一列。可以在不创建新数据帧的情况下做到这一点吗?
df = df.drop("tags_s")
看起来创建一个新的数据帧更安全,更正确,对吗?通过重用如上所述的数据帧可能会遇到什么问题?
如果重用数据帧是一种糟糕的做法,假设有人想要删除几个与模式匹配的列:
for col in df.columns:
if col.startswith("aux_"):
df = df.drop(col)
在这种情况下,每次创建一个新的数据帧似乎不切实际。最佳实践是什么?
我有一个包含许多数据列的大型数据帧df1,其中两个是dates和colNum。我已经构建了跨越df1的日期范围和colNum的第二个数据帧df2。现在,我想用df1的第三列(任何其他数据列)填充df2,这些列满足df1的dates和colNum标准,并且与df2的dateIndex和colNum匹配。
我尝试过MERGE的各种版本,但都没有成功。
我可以遍历这些组合,但是df1非常大(270k,2k),所以从df1的某一列填充一个df2需要花费很长时间,更不用说填充所有列了。
慢循环版本
dataList = ['revt']
for i in dataList:
go
我有一个非常大的数据集,我希望为其制作多个副本,但对于此数据集的每个副本,我希望在新列中提供一个不同的值。这样做的目的是将另一组数据与这些列的数据集配对。让我举一个例子。假设我的数据集如下: id value
X01 NA
X02 NA
X03 NA
X04 NA
X05 NA
X06 NA 我想制作这个数据帧的32个副本,然后对于每个副本,在名为“character”的第三个新列中给它一个不同的值。可以用该值填充整个列,只需输入一个列表,如c("apple","banana","green","
我正在学习Python和Pandas,并试图找出最有效的方法来比较两个数据帧上的多个选定列,以找到匹配的列。例如,如果我有以下两个数据帧: Frame 1
A B C D E F
001 10 0 0 10 0 10
Frame 2
A B C D E F
200 10 0 10 0 10 0
201 0 10 10 0 0 10
202 0 10 0 0 0 0
2