前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python解析百度贴吧,去掉代码注释

Python解析百度贴吧,去掉代码注释

作者头像
kenvie
发布2022-01-20 16:29:42
7200
发布2022-01-20 16:29:42
举报
文章被收录于专栏:kenviekenvie

爬取百度贴吧的时候遇到的问题就是爬下来有数据的代码都被注释掉了,python获取不到,所以要把代码注释取消掉

正常的html代码注释是这样的:

代码语言:javascript
复制
<!-- code -->

所以,只要把任意一办标签换成别的符号即可

代码语言:javascript
复制
from lxml import etree
import requests

url = 'https://tieba.baidu.com/f?kw=%E5%AD%99%E7%AC%91%E5%B7%9D'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
r = requests.get(url=url, headers=headers)
html = etree.HTML(r.text.replace('<!--',' ')) # 取消注释的代码
data_list = html.xpath('//a[@class="j_th_tit "]/text()')
for data in data_list:
    print(data)

运行结果:

版权属于:kenvie

本文链接:https://cloud.tencent.com/developer/article/1937744

商业转载请联系作者获得授权,非商业转载请注明出处。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021 年 11 月,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档