首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 爬虫(六)

在上节我们可以利用解析器把我们想要的信息提取出来了,提取的过程很兴奋,因为程序按照自己的意愿在进行,当程序正常运行的时候是自己最开心的时候,即使之前遇到的各种不顺都烟消云散了,留下的只有满满的喜悦。有时候撸代码两三个小时就过去了,虽然在这两三个小时内有各种不顺也许学到的知识并不多,但是经过动手动脑调试成功后,非常有成就感,在调试中锻炼自己不骄不躁的心态,其实这东西真的要自己动手才能感受到。

接下来开始把我们提取的信息保存下来,保存成text文件或者CSV文件或者json文件。不过现在数据量比较小不用数据库去管理这些数据,当这个项目足够大,信息足够多时我们就需要配置数据库来管理我们的数据了。

还是以百度首页为例,抽出视频,贴吧等标记里面的文字和链接接如图

把这几个关键词的信息都提出来

用for循环把抽到的HTML文档中的标记遍历,读取文字和链接

然后赋值给name和href

然后可以把提取出的信息放到一个集合里面

先定义一个集合s={},然后在循环中就把刚刚的文字和链接放到集合里。

可以看见数据都放进了集合s里了。

接下来可以保存为text、CSV或者json格式了

比如保存成text格式,要用到dump函数,这个函数会把Python对象转成json对象,通过fp文件流写入文件中。

先导入json库 import json

with open('百度首页.text'.decode('utf-8'),'w') as fp: #加入decode是为了使文件名中文显示

json.dump(s,fp=fp,indent=2,ensure_assii=False) #indent是设置一行显示几个数据,ensure_assii=False使文件里的中文还是中文显示。效果如下

在目录下也有这个文件了

打开后

保存为CSV也是一样的

下载这个文件用notepad打开

下一节将会是实战内容,爬取汽车之家网站10万以内的SUV车辆信息

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217G0N17O00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券