前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PHP爬虫小结

PHP爬虫小结

原创
作者头像
jerryteng
修改2018-12-03 16:12:40
1.7K0
修改2018-12-03 16:12:40
举报
文章被收录于专栏:jerryteng的专栏jerryteng的专栏

PHP爬虫

images.jpeg
images.jpeg

现在网络上有很多很多的爬虫了,各式各样的,

但是大家都不太喜欢用PHP来写爬虫,可能是由于不稳定,可以组件库太少,

不管怎么样,PHP写起来还是很简单的。

curl 实现方法

直接采用 PHP curl来抓取数据

socket方法

采用最原始的socket方法,

这里有一个 https://github.com/hightman/pspider 项目,很完善,也是采用了socket方式。

file_get_contents 方法

file_get_contents 方法 ,这个最直接,但是有的虚拟机可能会有限制。

我用的是腾讯云的主机,没有任何限制,就直接用curl方法了

爬取网页步骤

  • 设置种子url,一般都是站点的域名,通过这个主页一步一步抓取
  • 抓取种子url,分析这个页面,获取所有的相关的url,根据是否抓取外站策略来判断url是否入队列,这里队列实现就比较多样化了,可以redis ,也可以数据库,我就直接数据库保存了。
  • 处理url,判断是否是需要抓取的网页
  • 如果是要抓取的网页,处理入库
  • 如果不是,就更新队列

有多个PHP的爬虫推荐:

这里重点说一下第一个:

一个用PHP实现的轻量级爬虫,只提供了爬虫最核心的调度功能,所以整体实现非常精简,使用也非常简单并且易于上手。

特点
  1. 轻量级,内核简单非常易于上手
  2. 基于Redis的调度插件支持分布式以及断点抓取
  3. 易扩展易定制,可以随时按照自己的需求定制调度插件

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • PHP爬虫
    • curl 实现方法
      • socket方法
        • file_get_contents 方法
          • 爬取网页步骤
            • 有多个PHP的爬虫推荐:
              • 特点
          相关产品与服务
          云数据库 Redis
          腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档