我的数据如下所示:
met = """
A B C D E F
idx1 1 3 5 5 7 10
idx2 2 3 6 12 6 1
.... """"
我想要的是这个输出,其中X是A和D的平均值,Y是B和E的平均值,Z是C和F的平均值。
output = """
X Y Z
idx1 3 5 7.5
idx2 7 4.5 3.5
大家好!我正在努力用python从excel表格中计算出某些行的平均值。特别是,我想从前三行开始计算每三行的平均值,然后移动到下三行,依此类推。我的excel表格包含156行数据。我的数据表如下所示:
And this is my code:
import numpy
import pandas as pd
df = pd.read_excel("My Excel.xlsx")
x = df.iloc[[0,1,2], [9,10,11]].mean()
print(x)
总而言之,我正在尝试使用一行代码或某种索引来计算第一部分测量值1(第1,2,3行)的平均值和第二
我有一个数据框,上面写着: A 2007/Ago 2007/Set 2007/Out ... 2020/Jan 2020/Fev
row1 x number number number ... number number
row2 y number number number ... number number
row3 w number number number ... number number
...
row27 z number number
我想为每一行(基于行索引)绘制Pandas Dataframe的某些切片,并使用不同颜色的。
我的数据如下所示:
我已经试图在这个的帮助下找到一种方法,但我做不到--可能是因为缺乏技能。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_csv("D:\SOF10.csv" , header=None)
df.head()
#Slice interested data
C = df.iloc[:, 2::3]
#Plot Temp base on r
我有特别讨厌的shell编程,几乎没有shell脚本方面的经验。我有下面的文本文件。我需要做的是计算子集1的平均Y(m)和子集2的平均Y(m)之间的差值。可以有两个以上的子集,但计算子集1和子集2之间的差值就足够了。
我尝试过各种awk命令,但似乎我的大脑被太多的障碍烧坏了。啊!
MODEL PARAMETERS :
Project : Report
Dataset : xxx
Number of subsets : 2
Total number : 8
Subset number : 1
Subset name : xxx_sub1
Number
我想画出代表2000 - 2100年时间序列的x和y的28个图表(每个国家一个)。 下面是我的表格: table: countries, year and x and y varibales https://i.stack.imgur.com/r4vJh.png 我所做的是:我创建了308个图,表中的每个值一个(空)-每个国家一个图。 我想要的是:时间序列2000-2100的X和Y值的28个图(每个国家一个)。 X = df.iloc[:, -1].values
y = df_1.iloc[:, -2].values
for i in df['CNT']:
pl
与和相关
考虑一下这个数据
import pandas as pd
import numpy as np
df = pd.DataFrame(index=range(10))
df['a'] = [ 3 * x for x in range(10) ]
df['b'] = [ 1 -2 * x for x in range(10) ]
根据 for aggregate,您应该能够指定使用如下所示的dict聚合哪些列:
df.agg({'a' : 'mean'})
回传
a 13.5
但是,如果您尝试使用用户定义的函数(如此函
我有这样的数据
t=c(3,2,9,8)
u=c(5,6,7,8)
v=c(3,2,1,9)
w=c(5,6,7,8)
x=c(1,2,3,4)
y=c(4,3,2,1)
z=data.frame(t,u,v,w,x,y)
output:
t u v w x y
1 3 5 3 5 1 4
2 2 6 2 6 2 3
3 9 7 1 7 3 2
4 8 8 9 8 4 1
我想得到前三列的每一行的平均值,然后得到最后三列的每一行的平均值。例如。第1行的平均值、t-v列和第1行的平均值、w-y列等。
期望产出:
t u v avg w x y avg2
1 3 5 3 3.6 5 1
我正在尝试使用pandas来拆分一个类似如下的tsv文件: X y X y 空行 X y z a b c X y z a b c 分成两个单独的数据帧,一个包含空行之前的一半,另一个包含文件的其余部分-这是因为我不能将整个文件读取到一个数据帧中,因为这两个部分的列数不同。 有没有办法建立空行作为第一个数据帧的“停止点”,并将tsv文件的其余部分读取到另一个数据帧中? 目前,我只是通过使用pd.read_csv(file_name,skiprows = 3,delimiter = '\t')跳过行来解决这个问题,但是使用这种方法不是一个很好的方法。 谢谢!
我有60个巨大的csv文件(每个大约2.5GB)。每个封面资料为期一个月,并且有我感兴趣的“距离”栏。每一行约有1400万行。
我需要找到每个月的平均距离。
到目前为止,这就是我所拥有的:
import pandas as pd
for x in range(1, 60):
df=pd.read_csv(r'x.csv', error_bad_lines=False, chunksize=100000)
for chunk in df:
print df["distance"].mean()
首先,我知道‘打印’不是一个好主意。我
我现在有一个时间依赖常数的odes系统。例如。
def fun(u, t, a, b, c):
x = u[0]
y = u[1]
z = u[2]
dx_dt = a * x + y * z
dy_dt = b * (y-z)
dz_dt = -x*y+c*y-z
return [dx_dt, dy_dt, dz_dt]
常数为"a“、"b”和"c“。我目前有一个列表,“a”为每一时间步骤,我想插入在每一时间步骤,当使用solver...is?
谢谢!
我想用我的label表示的线条创建一个图形
因此,在这个例子图片中,每一行代表一个不同的标签。
数据看起来是这样的,x轴是日期时间,y轴是计数。
datetime, count, label
1656140642, 12, A
1656140643, 20, B
1656140645, 11, A
1656140676, 1, B
因为我有大量的数据,所以我想用1小时甚至1天的数据进行汇总。
我能够生成上面的图片
# df is dataframe here, result from pandas.read_csv
df.set_index("datetime").g
我有一个数据帧,看起来像这样:
df = data.table(type=rep(x=LETTERS[1:2], each=4),year=list(2009,2010,2013,2016,2003,2005,2009,2015), outcome = list(1,2,1,4,3,1,5,3))
type year outcome
1: A 2009 1
2: A 2010 2
3: A 2013 1
4: A 2016 4
5: B 2003 3
6: B 2005 1
7
为了说明我的问题,举一个虚拟的例子:我有一个16行(这些代表试用)和3列(试用难度、标号X和标号Y)的数据集。标号X是有4个水平的因子(1-4),标签Y是有两个等级的因子(“女性”,“男性”)。例如:
difficulty X Y
trial1 3.0 1 male
trial2 1.4 1 male
trial3 2.1 1 female
trial4 1.5 1 female
trial5 0.3 2 male
t
我想计算数据帧中每一对可能的列的每行数之间的绝对差异。
例如,使用下面的dataframe:
x <- rnorm(1:10)
y <- rnorm(1:10)
z <- rnorm(1:10)
df <- as.data.frame(cbind(x,y,z))
有可能的列组合的x-y,x-z,和y-z。我希望计算每一列对在每一行中的数字的差异。
我想要的输出是这样的:
Variable 1 Variable 2 Difference
x y 1
x y 2
x y 3
x z 4
x z 5
x z 6
x z
我有一只熊猫数据,有两列,比如x和y。对于每一行,x是服从泊松分布的随机变量的平均值。我想增加第三列,z,使得z=随机抽签小于y的概率。
对于给定的行,假设x= 15,我想知道随机抽签小于y= 10的概率。我知道我可以使用:
from scipy.stats import poisson
x = 15
y = 10
z = poisson.cdf(y, x)
z
返回0.118
如何对熊猫数据栏中的每一行进行此操作,创建第三列?