有3列,
ACCOUNT, DATE, AMOUNT
我正在尝试在pandas中做以下事情,并计划在group by output dataframe之后使用"sum“列来做更多的工作:
df_group_by=df.groupby('account').agg({'amount': [np.size, np.sum]},as_index=False).reset_index() # equal to "SELECT ACCOUNT, SUM(amount) as sum FROM table GROUP BY ACCOUNT;"
pr
我试图用一个比系列的原始索引包含更多级别的索引( Series,ix)来设置a1的索引。
>>> a = pd.DataFrame({'a': [1, 2, 3], 'b': ['b', 'b', 'b'], 'x': [4, 5, 6]}).set_index(['a', 'b'])
>>> a
x
a b
1 b 4
2 b 5
3 b 6
>>>
>>> a1 = a
我使用了一个数据have (初始索引为0.9999),并按年份进行了分区:
requests_df = {year : df[df['req_year'] == year] for year in df['req_year'].unique()}
和往常一样,每个子帧保留自己的索引顺序。然后,在尝试对其中一个孤立帧(df_yr = requests_df[2015])进行索引时,我得到了一个非常出乎意料的行为:
for idx in df_year.index:
qty = frame[idx]['qty_tickets']
原因
当对一个drop使用pandas.DataFrame方法时,它接受列名列表,但不接受元组,尽管说"list-like“参数是可以接受的。我是否不正确地阅读文档,因为我希望我的MWE工作。
MWE
import pandas as pd
df = pd.DataFrame({k: range(5) for k in list('abcd')})
df.drop(['a', 'c'], axis=1) # Works
df.drop(('a', 'c'), axis=1) # Errors
版本--使用Pyth
我正在阅读“Python for Data Analysis”这本书,但在“Example: 2012联邦选举委员会数据库”部分将数据读取到DataFrame时遇到了问题。问题是其中一列数据总是被设置为索引列,即使index_col参数设置为None也是如此。
下面是指向数据的链接:。
下面是加载代码(为了节省检查时间,我设置了nrows=10):
import pandas as pd
fec = pd.read_csv('P00000001-ALL.csv',nrows=10,index_col=None)
为了保持简短,我排除了数据列输出,但以下是我的输出(请不要使用索引
我要做的是将这段SQL代码复制到Python中: select column_1, column_2, column_3,
sum(column_4) as sum_column_4, sum(column_5) as sum_column_5
from df
group by 1,2,3; 换句话说,我需要制作这个数据框架: column_1 column_2 colunn_3 column_4 column_5
AA BB CC 5 3
AA BB CC
我正在尝试获取两个熊猫数据表的相同元素,并对数据进行索引和合并。我使用它来处理非常大量的数据(数百万)。第一个表(df)是constatn,第二个表(D2)在每个循环中都在变化,新元素将与第一个表合并。
下面是我在这个过程中的代码:
df = pd.read_csv("inputfile.csv",header=None)
d1 = pd.DataFrame(df).set_index(0)
for i in range(0, len(df)):
try:
follower_id=twitter.get_followers_ids(user_
我已经将问题缩小到以下代码:
import pandas as pd
d = {'b' : 1, 'a' : 0, 'c' : 2}
c = {'one':[1,2,3], 'two':[4,5,6]}
p = pd.Series(d)
pc = pd.DataFrame(c)
print(p[-1]) # This line works
print(pc['two'][-1]) # This line does not work.
追溯(最近一次调用):文件"jdoodle.py"
这是我的 示例数据, Close
46.119999
47.259998
52.000000 这就是我创建df的方式; data = pd.read_csv('logo_bist_merged.csv')
#this is justbecause last 413 rows are NA
data.drop(data.tail(413).index,inplace=True)
data.Date=pd.to_datetime(data.Date)
data=data.set_index(data.Date)
d
我试图重构以前非常手动的代码,并为我创建的每个新数据框设置索引,以本质上创建所需的输出:
f1 precision recall
A 0.600315956 0.72243346 0.513513514
B 0.096692112 0.826086957 0.051351351
C 0.085642317 0.62962963 0.045945946
D 0.108641975 0.628571429 0.059459459
下面是我当前的代码:
summaryDF = pd.DataFrame().set_index(['A'
我试图读取我的汽车销售数据,并将它们传输到numpy数组。但不起作用。这是数据图像。
import numpy as np
import pandas as pd
for i in range(2,34):
data = pd.read_csv('Book2.csv')[i].values
data.shape
print(data)
错误消息:
Traceback (most recent call last):
File "C:\Users\ThinkPad\AppData\Local\Programs\Python\Python36\lib\sit