爬虫练习-百度新闻

今天爬一下百度新闻的新闻标题

1.首先分析页面

进入百度新闻

在搜索栏输入需要搜索的内容

再选择搜索的内容为点击搜索后页面跳转到以下url:

点击下第二页发现url中增加了:

点击第三页发现:

合理的推断出页数,

2.然后开始分析页面内容

找出比较重要的几个信息,,

以第一条新闻为例,使用浏览器自带的找到其源码中的位置

发现内容写在一个的div里面

3.开始代码实现

通过request模块模拟http访问,lxml进行xpath解析

首先写一个获取页面信息的函数:

将内容写入文件

主函数:

以上就完成了一个输入关键字并将内容写入json文件的爬虫

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180318G1BCMA00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券