py-video
项目介绍
世界上最大的视频网站爬虫,文末附送项目链接
免责声明:本项目旨在学习Python爬虫框架和MongoDB数据库,请勿用于商业和个人其他意图。如若不然,后果自负。
简介
该项目主要是爬取世界上最大视频网站--PornHub的视频时长、标题、封面URL、mp4链接和具体的PornHub链接
项目爬的是PornHub,结构简单,速度飞快,易于操作
爬取PornHub视频的速度可以达到500万/天以上。
10多个个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]
环境、架构
开发语言: Python3.7
开发环境: Window系统
数据库: MongoDB
主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
并支持分页爬取数据,并加入到待爬队列。
使用说明
启动前配置
安装MongoDB,并启动,不需要配置
安装Python的依赖模块:Scrapy, pymongo, requests 或
根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置
启动
python PornHub/quickstart.py
数据库说明
数据库中保存数据的表是 PhRes。以下是字段说明:
PhRes 表:
我的码云地址我的github地址欢迎关注我的公众号
领取专属 10元无门槛券
私享最新 技术干货