我正在使用一个将熊猫系列转储到yaml文件的脚本:
with open('ex.py','w') as f:
yaml.dump(a_series,f)
然后是另一个打开熊猫系列yaml文件的脚本:
with open('ex.py','r') as f:
yaml.safe_load(a_series,f)
我正在尝试safe_load这个系列,但是我得到了一个构造函数错误。如何具体说明熊猫系列的装载是安全的?
我被困在为熊猫数据创建多个索引的知识中。我的数据是一张有230 x 640的图像。我添加了一个带有时间戳的列,现在我想创建一个具有x、y坐标和时间戳的Multiindex。我也需要时间戳作为索引,因为我用不同的时间戳连接多个帧,但是具有相同的帧宽和高度。
有办法创建这样的索引吗?我的目标是得到:嘿值2和0太高了。
我的数据看起来像(val是一个温度值):
0 1 2 .. 639 ts
0 val val val .. val
1 val ..
2 ..
..
229
示例
玩具数据表:
>>> df = pd.DataFrame({'a': ['the', 'this'], 'b': [5, 2.3], 'c': [8, 11], 'd': ['the', 7]})
产量:
>>> df
a b c d
0 the 5.0 8 the
1 this 2.3 11 7
以及:
>>> df.dtypes
a object
b
我有多个索引的数据:
A | B
1 0 a b
2 0 c d
1 e f
3 0 g h
1 i j
2 k l
我还有一个具有匹配索引级别0的系列。
1 m
2 n
3 o
现在,我想将本系列的值添加到dataframe中。
A | B | C
1 0 a b m
2 0 c d n
1 e f n
3 0 g h o
1 i j o
2 k l o
我应该使用什么样的连接,合并,连接?我不介意我以后要做什么,但是我想要保持数据的多指标不变。
非常感
如果我要从长格式转换为分组聚合格式,我只需这样做:
s = pd.DataFrame(['a','a','a','a','b','b','c'], columns=['value'])
s.groupby('value').size()
value
a 4
b 2
c 1
dtype: int64
现在,如果我想恢复聚合,并从分组格式转到长格式,我将如何做呢?我想我可以循环通过分组系列,重复'a‘4
我正在为一位学习者谨慎地制作我的系列。我真的需要这个系列的浮动,我真的需要避免for循环。
如何将本系列从浮点转换为int?
下面是我目前正在失败的功能:
def discretize_series(s,count,normalized=True):
def discretize(value,bucket_size):
return value % bucket_size
if normalized:
maximum = 1.0
else:
minimum = np.min(s)
s = s[:] - mi
我有一个熊猫系列(S),它的索引如下:
bar one a
b
two a
b
baz one a
.
.
我有一个返回低维索引的条件函数。我所做的是执行类似于S.groupby(level=(0,1)).median() > 1的操作
这将返回一个具有如下索引的系列:
bar one
baz two
foo one
.
.
如何使用低维索引对原始系列进行切片?
我知道我可以使用.isin重置索引和选择行,但如果可能的话,我想使用MultiIndex。
提前感谢!
===
下面是实际系列的样子:
BATCH
我有一个csv文件,其中包含2列和一个列表,其中包含第一列的所有值。我想对csv文件进行排序,就像列表中包含的值一样。
CSV文件:
Name age
---- ----
alice 17
bob 18
carol 19
列表
name = ['bob','carol','alice']
预期输出:
Name age
---- ----
bob 18
carol 19
alice 17
如何与巨蟒熊猫模块合作??
因此,我试图迭代从一个Pandas获得的两个系列,我发现我无法迭代它们来返回小于280.000的数字。我还意识到,我也不能迭代列表。有什么方法可以迭代多个列表,序列等吗?谢谢。例子如下:
two_series = df['GNP'], df['Population']
def numb():
for i in two_series:
if i < 280.000:
print(i)
鉴于熊猫系列按日期编制索引,我需要将该系列分割成n个月的块。下面的代码将数据分割成12个月的块。如何将其概括成n个月的块?另外,请注意,并不是所有的日期都在系列中,所以每个月的第一天和最后一天可能不存在于该系列中。
# Create a pandas series indexed by date
import pandas as pd
import numpy as np
dates = pd.date_range('2000-01-01', '2009-12-31')
data = np.random.rand(len(dates))
series = pd.