我们通过右键打开获取到的 XHR 请求, 然后看看数据是怎样的
[izgjhxaak7.png]
[未使用JSON Handle前]
[使用后]
使用 Json Handle 后的数据可读性就很高了
Step...换算下来, 就是最多允许爬 15 页
滑动了超过15页发现仍然有信息显示, 经过转换, 发现它的时间戳只是浏览网页生成的时间戳, 与内容无关
按了几个数字, 修改了b_id的值, 发现内容确实发生了改变...由于新闻来源隐藏在description, 经过观察, 不难发现它的规律, 写一条正则获取即可, 如果结果为空, 则说明来源是36Kr
src_pattern = re.compile('。...self.client = pymongo.MongoClient(host=settings['MONGO_HOST'], port=settings['MONGO_PORT'])...'], settings['MONGO_PSW'])
self.db = self.client[settings['MONGO_DB']]
self.coll = self.db