首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫练习-百度新闻

今天爬一下百度新闻的新闻标题

1.首先分析页面

进入百度新闻

在搜索栏输入需要搜索的内容

再选择搜索的内容为点击搜索后页面跳转到以下url:

点击下第二页发现url中增加了:

点击第三页发现:

合理的推断出页数,

2.然后开始分析页面内容

找出比较重要的几个信息,,

以第一条新闻为例,使用浏览器自带的找到其源码中的位置

发现内容写在一个的div里面

3.开始代码实现

通过request模块模拟http访问,lxml进行xpath解析

首先写一个获取页面信息的函数:

将内容写入文件

主函数:

以上就完成了一个输入关键字并将内容写入json文件的爬虫

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180318G1BCMA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券