我的数据是以规范化的方式从数据库中输出的,其中包含年份、州和值的字段。
我想做的数据分析,并需要它格式化的地方,每一年是一个字段,而不是一个record.So我喜欢的数据,其中每条记录是一个州,然后有一个字段,每一年,这些字段的每个值是该年和该州的值。
有什么命令可以做到这一点吗?
所以我有:
State Year Value
KY 1998 56
KY 1997 78
IL 1998 48
IL 1997 72
我想要:
State 1997_value 1998_value
KY
我的任务是重组一个相当大的数据集进行分析。我想要制作一个数据,其中每个员工都有一个与他们的员工编号相关联的统计信息列表,根据他们在公司工作的时间。这些数据并不能追溯到公司成立之初,因此一些员工在第一阶段就不会出现。我的猜测是,有一些组合的枢轴和合并,我无法包围我的头。
df1看起来是这样的:
Periods since Start Period Employee Number Wage Sick Days
0 3 202001 101 20 14
1
我在同一行中有一个具有多个值的数据帧。
index price
1 1000,2000,3000
2 2000,500
数据帧有12行,并不是所有的price行都有相同的长度。我想用index和price绘制x轴上的index和y轴上的price .我有以下密码-
ggplot(data_m,
aes(x = 1:12,
y = data_m$price))
我得到了错误- Error: Aesthetics must be either length 1 or the same as the data (12): y
如何绘制价格栏中的每个值?
我有一个数据帧,看起来像这样 a b z
1 NULL NULL ... 1
2 NULL 1 ... NULL
3 1 NULL ... NULL 第一列始终是填充的,并且在它的右侧还有许多其他列。在列A到Z中,一列被填充,其余的不被填充。 我想把这个数据帧转换成一个两列的数据帧,在第二列中包含从a列到z列的标题。上面的例子将被转换成这样。 The_Column
1 z
2 b
3 a pandas.melt()函数接近于我所需要的,但它不处理空值。我只关心B到Z列中填充的一个单元格。 有没有一种优雅的方法来处理这个问题?
我有一个像这样的熊猫数据框 ? 我想把它转换成下面的代码(不使用任何循环!): ? 你知道怎么做吗?? 如果图像不显示: 我有一个包含2列的数据帧: Name和Hobbys。我有以下几行代码: Anna drawing
Anna swimming
Anna skiing
Lisa running
Lisa singing
Tom drawing 我想把它转换成一个有4列的数据帧:姓名,兴趣1,兴趣2,兴趣3。并且有以下几行: Anna drawing swimming skiing
Lisa running singing NaN
Tom drawing NaN NaN
我有一组数据,我使用一个函数对其进行拟合,这产生了一个带有拟合参数的字典,其中关键字对应于可能的组名。 假设我有另一个数据帧,其中包含一些组和一些相应的x值。我想要做的是使用dict中的拟合参数获得第二个数据集中x值的y值,而不是将参数合并到第二个数据集中。 下面是我想做的一个简化的例子。首先,我有一个使用拟合参数(而不是真实参数)的函数: def func(x,p):
y = 0
for i in range(len(p)):
y += p[i]*x**(i)
return y 包含第二个dataset的DataFrame,包含两个要分组的列和一些相
我有一个关于将几个数组组合成一个数组的问题。我有一个长度为1000的列表,在列表的每个元素中有16个维度为100的数组,我想要实现的是一个包含1000个元素的列表,每个元素都有一个维度为1600的数组。如何实现这一点:我尝试了以下方法:返回16'000 x 100维度的x=np.concetate(x, axis=0)和返回16 x 100'000维度的x=np.concetate(x, axis=1)。我还尝试了x=np.vstack和x=np.hstack,但我自己无法获得它。有人能帮帮我吗? 谢谢! 编辑:最小工作样本: 我有类似这样的东西,首先是数据帧 Date
我有一张excel表格,我把它读进了熊猫的数据框里。看起来是这样的: KEY_FIELD_NAME KEY_FIELD_VAL_ORIG KEY_FIELD_VAL_NEW
NAME XXX YYY
AGE 11 22
INCOME 100 200
NAME ABC DEF 我还有另一个熊猫数据帧(df_