TOP100榜信息,将涉及到基础爬虫架构中的HTML下载器、HTML解析器、数据存储器三大模块。...step2:简单的分析一下网页的源代码,找到我们要爬取的相关信息,以及信息在html源码中的位置,确定我们的正则表达式;
?...:',res)
if __name__ =='__main__':
main()
最后保存的文件内容如下,大家也可以保存为.csv格式,这样比较方便后期的数据分析和处理...:名称": "音乐之声", "主演": "朱丽·安德鲁斯,克里斯托弗·普卢默,埃琳诺·帕克", "上映时间": "1965-03-02(美国)", "评分": "9.0"}
{"第2页的内容是:名称":...,尼可莱塔·布拉斯基,乔治·坎塔里尼", "上映时间": "1997-12-20(意大利)", "评分": "9.3"}
{"第2页的内容是:名称": "黑客帝国", "主演": "基努·里维斯,凯瑞-