首页
学习
活动
专区
工具
TVP
发布
您找到你想要的搜索结果了吗?
是的
没有找到

爬虫——实战完整版

bson.binary import Binary #MongoDB存储二进制的类型 创建MongoCache类 初始化init 连接mongodb数据库 连接数据库cache实例(没有则创建) 连接集合webpage...localhost',27017) 16 self.db = self.client.cache #创建名为cache的数据库 17 web_page = self.db.webpage...#创建集合webpage并赋值给变量 18 #创建timestamp索引,设置超时时间为30天,total_seconds会将days转为秒 19 self.db.webpage.create_index...30 #使用下载的url(路由)作为key,存入系统默认的_id字段,更新数据库,若存在则更新,不存在则插入,_id唯一就可实现爬取的数据去重 31 self.db.webpage.update...#创建集合webpage并赋值给变量 18 #创建timestamp索引,设置超时时间为30天,total_seconds会将days转为秒 19 self.db.webpage.create_index

1.2K20
领券