前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >某吧爬虫 第二步

某吧爬虫 第二步

作者头像
偶尔敲代码
发布2023-04-28 10:16:47
2860
发布2023-04-28 10:16:47
举报
文章被收录于专栏:偶尔敲代码

上次开了个头,一直没时间继续下一步。这不抽空赶紧整理了一下。

废话不多说,直接开始,附主要步骤截图、思路及关键词。


一、观察正常页面的信息

首先打开某吧地址:

http://www.****ke8.com/zuixin.php

如下图,我们一般只需要关注 “最新交流信息” 这栏。

鼠标右键,查看网页源代码。观察代码中的内容,发现帖子内容都在 “最新交流信息” 和 “text/javascript” 范围内。后面分析的时候只要先截取这中间的内容,再进行文本处理,会省一丢丢时间。

二、分割帖子

继续查看网页源代码,下拉到看到跟帖子标题相关的代码附近。然后,睁大眼睛观察有没有什么规律。果然,有个独树一帜的 “»”特别显眼。按下Ctrl+F,搜索这个字符串,发现有100个,每两个之间就是一个帖子。所以用作分割的字符就是它了。

三、提取帖子标题和地址

还是睁大眼睛,可以发现很明显的字眼,“<ahref=”、“title=”,如下图:

所以还是只要提取出关键词(上图方框)中间的内容即可。

四、提取帖子内容

帖子标题和地址都有了,万一哪个帖子很想看看,不得一顿点击。所以还需要对点击后的帖子爬取内容。

同样也是右键,查看网页源代码。翻到跟帖子内容相关的代码区域,找关键词。

帖子的关键词主要是下图方框这些,“postmessage_”, “<ignore_js_op>

但多翻翻帖子,会见识到吧友发帖的格式五花八门,各有脾气。导致要识别帖子的内容也增加了点难度。不过经过一些文本替换,也能大差不差的去掉无关字符。

五、敲代码

最好添加协议头,大概如下的头就好,当然cookie是必备的,不清楚cookie怎么来,点下方链接

某吧爬虫 第一步 偶尔敲代码,公众号:偶尔敲代码某吧爬虫 第一步

代码语言:javascript
复制
Accept-Language: zh-CN,zh;q=0.9
Cache-Control: max-age=0
Connection: keep-alive
Host: www.zuanke8.com
Referer: http://www.zuanke8.com/home.php?mod=space&do=favorite&view=me
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36

六、效果

最终的效果大概就是这样了:

代码截图:

爬取帖子标题和地址

爬取帖子内容

请勿频繁对别人服务器发送网络请求,仅供学习,后果自负!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 偶尔敲代码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档