首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python 3 批量爬取小红书话题笔记并下载高清无水印图片源码爬虫!

Python 3 批量爬取小红书话题笔记并下载高清无水印图片源码爬虫!

作者头像
二爷
发布2023-11-27 17:16:41
发布2023-11-27 17:16:41
3.4K10
代码可运行
举报
文章被收录于专栏:二爷记二爷记
运行总次数:0
代码可运行

小红书现在已经成为营销胜地,对于笔记,尤其是爆款笔记的研究和搜集整理,应该是不少人在做的事情。

前面本渣渣分享了小红书单篇笔记的下载,这篇为大家分享批量下载小红书笔记的方法,这里取了巧,下载话题的小红书笔记,同样也能实现批量下载同一话题下的多篇小红书笔记内容。

Python爬虫,小红书单篇笔记采集爬虫源码工具

以下简单整理下抓包分析及部分参数分享:

重要的参数分析及要点都附上图了,仅供参考学习!

采集对比验证效果:

附关键源码参考:

其中参数cookie、page_id 须自行补齐!

代码语言:javascript
代码运行次数:0
运行
复制
# -*- coding: utf-8 -*-
#小红书话题数据采集
# author:微信 huguo00289
#https://www.xiaohongshu.com/page/topics/5bfd5dcb0af6350001652788?fullscreen=true&naviHidden=yes&xhsshare=CopyLink

import requests

url="https://www.xiaohongshu.com/web_api/sns/v3/page/notes?"
headers={
    "cookie": cookie,
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
}
params={
    "age_size": 6,
    "sort": "hot",
    "page_id": page_id,
    "cursor": "",
    "sid": ""
}
response=requests.get(url=url,headers=headers,params=params,timeout=6)
print(response.status_code)
cursor=response.json()['data']['cursor']
print(cursor)
datas=response.json()['data']['notes']
print(datas)
for data in datas:
    print(data)
    title=data['title']
    print(title)
    images_list=data['images_list']
    for image in images_list:
        image_name=image['fileid']
        image_url=image['url_size_large']
        print(image_name,image_url)

就分享到这里吧,感兴趣的话,可以自行修改补齐下载部分的内容代码,需要注意的是翻页的标签元素参数,要处理一下,不少网站下拉翻页都是这样处理的!

·················END·················

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与SEO学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Python爬虫,小红书单篇笔记采集爬虫源码工具
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档