嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!
一个多平台通吃的社交媒体数据爬虫工具,轻松爬取小红书、抖音、快手、B站、微博、知乎等内容,支持视频、图片、评论、点赞等,真正低门槛、战力强大。
MediaCrawler 是由 NanmiCoder 打造的中英文双平台全民爬虫项目,目前在 GitHub 拥有 约 27.7k ⭐,来自大量开发者、运营者的认可。 它支持 关键词/指定ID爬取、二级评论、登录态缓存、IP 代理池、评论词云生成 等核心功能,通过 Playwright 实现“模拟真实浏览器”,无需复杂逆向即可稳定采集。
MediaCrawler 针对上述痛点提供一套完整方案——通吃各大平台、零逆向、支持登录态、支持插件词云,真正上手简单、效果直观。
模块 | MediaCrawler 开源版 | MediaCrawler Pro(付费版) |
---|---|---|
登录方式 | QR + Cookie,登录态缓存 | 多账号支持,断点续爬 |
签名获取 | 浏览器 JS 注入,无需逆向 | 完全剥离 JS 依赖,纯后端可用 |
爬虫稳定性 | 通用,多平台命令行使用 | 支持 Linux 守护、IP 池、验证码绕过 |
数据处理 | 支持 CSV/JSON/SQLite 或 MySQL 等 | 附加词云图功能,未来接入 AI 分析模块 |
维护性 | Python + Playwright 简洁易读 | 适合企业级扩展与二次开发 |
以下是官方演示的一些截图,帮助你快速理解输出结构和使用流程:
(原项目仓库图略)
项目名称 | 多平台支持 | 登录方式 | 评论深度 | 签名逆向 | 储存方式 | 可视化 | 是否开源 |
---|---|---|---|---|---|---|---|
MediaCrawler | ✅ 支持7+平台 | ✅ QR、Cookie 缓存 | ✅ 一级+二级评论 | ✅ 浏览器 JS 注入,无逆向 | ✅ CSV/JSON/DB | ✅ 词云生成 | ✅ 免费开源 |
knaiskes/mediaCrawler | ✅ 多社交平台 | ❌ Token 手动填 | ❌ 评论展示可视化 | ❌ 需自己配置 token | ✅ 数据保存本地 | ❌ 无词云 | ✅ 开源 |
kirbystudy/MediaCrawler | ✅ 视频图片无水印下载 | ❌ 自填 Cookie | ❌ 无评论支持 | ✅ 简单 JS | ✅ 本地 | ❌ | |
专有爬虫工具(商业) | ✅ 通用 | ✅ 企业登录集成 | ✅ 评论深度采集 | ✅ 完备签名逆向 | ✅ 企业级数据仓库接入 | ✅ BI 报表 | ❌ 付费闭源 |
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
python -m venv venv
source venv/bin/activate # Windows 用 venv\Scripts\activate
pip install -r requirements.txt
playwright install
python main.py --platform xhs --lt qrcode --type search
data/
或数据库;MediaCrawler 以其成熟稳定、功能全面、易用性强的特性,成为社交媒体采集工具中的佼佼者。不论你是运营灵感收集、自媒体从业者,还是数据分析师,都能在这个项目中找到极强价值。
https://github.com/NanmiCoder/MediaCrawler
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。