图片
@toc
利用Python对豆瓣电影Top250电影进行爬取,收集相关的信息,并且利用Python进行数据分析,获取'排名','电影名称','导演','上映年份','制作国家','类型','评分'...dates,areas,genres,ratings,scores,quotes])
d = pd.DataFrame(df,columns=columns)
d.to_excel...ratings,scores,quotes])
d = pd.DataFrame(self.df,columns=self.columns)
d.to_excel...数据预处理
df = pd.read_excel("Top250.xlsx",index_col=False)
df.head()
上映年份格式不统一year = []
for i in df["上映年份...().split()
c = dict(Counter(colors))
c
图片
发现有个错误值
d = c.pop('1978(中国大陆)')
删除即可
对于删除字典的值有以下方法方法一 pop