总结下pandas使用的技巧
# 方法1
def get_counts(sequence):
counts = {} # 将计数值保存在字典中
for x in sequence:
if x in counts:
counts[x] += 1 # 存在则计数加1
else:
counts[x] = 1 # 不存在则定为1
return counts
# 方法2
from collections import defaultdict
def get_counts2(sequence):
counts = defaultdict(int)
for x in sequence:
counts[x] += 1
return counts
# 标准化过程:使用自定义的标准化函数实现
def normal_total(group):
group['normed_total'] = group.total / group.total.sum()
return group
# 按照性别计算平均得分
mean_ratings = data.pivot_table('rating', # 得分
index='title', # 行索引index
columns='gender', # 列属性gender
aggfunc='mean') # 使用的函数:平均分
mean_ratings[:5]
!head -n 10 /Users/peter/data-visualization/pydata-book/datasets/babynames/yob1880.txt
# 查看某个文件的前10行数据