示例:
dataframe1有以下行和列。
+---------+---------+---------+---------+---------+
| Column1 | Column2 | Column3 | Column4 | Column5 |
+---------+---------+---------+---------+---------+
| A | B | C | D | E |
| P | Q | R | S | T |
| J | K
我想用一系列经过计算的非平凡数字填充可变长度的列,这样它就可以匹配dataframe列中的一组数据。结果将是一个两列宽、一些较大的长数字(这里是20行长)的数据帧。我知道如何计算级数:
while p < 20:
r = p * 9890
d.append(r)
p +=1
但它会产生一个“水平”字符串:
print(d)
0,9890,19780,29670,39560,49450,59340,69230,79120,89010,98900,108790,118680,128570,138460,148350,158240,168130,178020,18791
给定具有数值的pd.DataFrame。我创建了一个汇总每列的行,如果数字大于或小于列数量的0.1 %,我想将其转换为二进制值0 /1。 dataframe example最后一行是列的总和(数据帧很大,它只是其中的一部分) 我知道每行和每列都需要一个循环。我命令用R: percent <- vector(length=nrow(df))
for (i in 1:ncol(df)) {
percent[i] <- sum(df[, i])*0.001
}
df_bin <- df
for (i in 1:33) {
for (j in 1:nr
我很难把熊猫的数据和从这个数据中生成的聚合列进行比较。具体而言,如果我有
df = Col1 Col2
a p
a q
a r
b r
c s
如果每个条目都等于该列的模态值,我想要一个布尔数据。我试过了
df == df.mode()
但这给了我Can only compare identically labelled DataFrame objects。我想要一个可以在第一个dataframe的行中广播第二个dataframe的东西来计算结果。我要说的是,在上述情况下
modal_df = df.mode()
我试图在Pandas dataframe中找到有超过64个字符的列。
dataframe有20列。我希望检查列中的每个值的字符长度,如果任何值超过64个字符,则打印列名。
当我使用下面的代码时,它不会给出任何错误,但不会输出列名,它的值与条件匹配。
for col in df.columns:
if (df[col].str.len()).any() > 64:
print col
我还确保了dataframe中的所有数据类型都是字符串类型。
我如何使用Pandas来实现这一点?
通过比较数据帧列值和另一个列表,从数据帧提取索引值时,我遇到了问题。
list=[a,b,c,d]
data frame
by comparing list with column X
X Y Z
0 a r t
1 e t y
2 c f h
3 d r t
4 b g q
this should return the index values like
X
0 a
4 b
2 c
3 d
I tried this method
z=dataframe.loc[(dataframe['X'] == list)]
我正在尝试使用iloc一次处理一个数据行。我从数据库中读取了一个排序的框架:
branch animal owner
00177 cat Dave
00177 lion Peter
00177 dog Dave
00200 dog Mary
00200 dog Fred
00300 horse Doug
00400 cat Dave
我想要处理每一组分支,所以我想,如果我把每一根草和下一根比较一下。就像这样:
for R in 0 to 7
while [df.iloc[[R],[0]] == df.il
这是我想要做的简化示例: data1 = {'one':['A', 'E', 'G'], 'two':['B', 'D', 'H'], 'three':['C', 'F', 'J']}
df1 = pd.DataFrame(data1)
df1
one two three
0 A B C
1 E D F
2 G H J
data2 = {'one
我有一个名为df的dataframe,我通过以下代码将其拖到R中:
列1的值是1、2、3、4和5。我想在R中的DataFrame查询中引用这个值。
我所做的工作如下:
vals<-数据$‘Column1’
我通过以下方法将查询嵌入R中
df2 <- dbGetQuery(database,sprintf("
SELECT column1,
column 2
FROM database
WHERE value IN (%s)",toString(vals)))
但是,我想让这个查询成为一个日期函数,并且只在某个日期之后才输入
这是一个示例DataFrame。
RootProduct | Product | Value
A A 1
A B 2
A C 3
D D 4
D E 5
当RootProduct == Product按RootProduct分组时,如何添加第四列,重复Value列中的值
这将产生以下DataFrame
RootProduct | Product | Value | Roo
我希望将每个组的所有非零值转换为零,直到python dataframe列中的最后一个零出现。 group | value | Result
a | 1 | 0
a | 2 | 0
a | 0 | 0
a | 1 | 0
a | 0 | 0
a | 1 | 1
a | 2 | 2
b | 1 | 0
b | 0 | 0
b | 2 | 2 我可以想到的一种实现方法是颠倒value列,并将其上面的元素与每个组的元素相
我有一个两个pd DataFrames,我想通过检查另一个dataFrame的同一行中是否存在多个列的值来过滤其中一个。
示例DataFrame1:
CHROM POS ALT Col4
r1 X 22 A 4
r2 1 43 T 6
r3 3 100 C 7
r4 15 22 A 13
DataFrame 2:
ALT chrom Col3 Col4 start
r1 A X 25 26 22
r2 A 1 18 19 2