记爬虫小分队（六）

罗罗攀

发布于 2018-08-28 15:21:21

2530

发布于 2018-08-28 15:21:21

文章被收录于专栏：有趣的Python和你

2017年5月18日今天有同学问我贴吧为什么信息提取不出来？

下面是同学的源代码：

import requests
from bs4 import BeautifulSoup

start_url = "http://tieba.baidu.com/p/4957100148"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER"}
response = requests.get(start_url,headers = headers).text
soup  = BeautifulSoup(response,"html.parser")
infos = soup.select('div.d_post_content j_d_post_content  clearfix')

他是同find方法，找的div的class标签，对于这个问题，我们可以换个思路，这个定位找不到，就往上找，我的代码：

import requests
from bs4 import BeautifulSoup

start_url = "http://tieba.baidu.com/p/4957100148"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER"}
response = requests.get(start_url,headers = headers).text
soup  = BeautifulSoup(response,"html.parser")
infos = soup.select('cc > div')
for info in infos:
    print(info.get_text().strip())

总结：各种爬取方法都需要灵活使用。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.05.18 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

记爬虫小分队（六）

记爬虫小分队（六）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐