前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PHP网络爬虫之CURL

PHP网络爬虫之CURL

作者头像
benny
发布2019-05-07 16:44:42
1.5K0
发布2019-05-07 16:44:42
举报

CURL简介

php的curl可以实现模拟http的各种请求,这也是php做网络爬虫的基础,也多用于接口api的调用。 PHP 支持 Daniel Stenberg 创建的 libcurl 库,能够连接通讯各种服务器、使用各种协议。libcurl 目前支持的协议有 http、https、ftp、gopher、telnet、dict、file、ldap。 libcurl 同时支持 HTTPS 证书、HTTP POST、HTTP PUT、 FTP 上传(也能通过 PHP 的 FTP 扩展完成)、HTTP 基于表单的上传、代理、cookies、用户名+密码的认证。

方法

  • 初始化

curl_init()

  • 设置属性

curl_setopt().有一长串CURL 参数可供设置,它们能指定URL请求的各个细节。

三个重要的选项

CURLOPTURL:指定请求的URL; CURLOPTRETURNTRANSFER: 设置为1表示稍后执行的curlexec函数的返回是URL的返回字符串,而不是把返回字符串定向到标准输出并返回TRUE; CURLLOPTHEADER:设置为0表示不返回HTTP头部信息 详细查看 php官网 https://www.php.net/manual/zh/function.curl-setopt.php

  • 执行并获取结果

curl_exec()

  • 释放句柄

curl_close()

  • 常用函数

curl_errno: 返回最后一次错误码,php已经定义了诸多错误枚举编码

curl_errror:返回一个保护当前会话最近一次错误的字符串

curlgetinfo:使用curlgetinfo()函数获取CURL请求输出的相关信息,以下是相关信息:

url:网络地址。 contenttype:内容编码。 httpcode:HTTP状态码。 headersize:header的大小。 requestsize:请求的大小。 filetime:文件创建的时间。 sslverifyresult:SSL验证结果。 redirectcount:跳转计数。 totaltime:总耗时。 namelookuptime:DNS查询耗时。 connecttime:等待连接耗时。 pretransfertime:传输前准备耗时。 sizeuplpad:上传数据的大小。 sizedownload:下载数据的大小。 speeddownload:下载速度。 speedupload:上传速度。 downloadcontentlength:下载内容的长度。 uploadcontentlength:上传内容的长度。 starttransfertime:开始传输的时间表。 redirect_time:重定向耗时。

例如

代码语言:javascript
复制
$info = curl_getinfo($sh);echo ' 获取 '.$info['url'].'耗时'.$info['total_time'].'秒';

封装的请求

代码语言:javascript
复制
    /**     * Created by 沙蒿.     * @desc    curl请求封装     * @param string $url   请求地址:https     * @param string $type  请求方式:get/post     * @param string $res   返回格式:json     * @param array $arr   请求参数     * @return mixed|string     */    public function httpsCurl($url = '', $type = 'get', $res = 'json', $arr = [])    {        $curl = curl_init();        if ($type == 'post') {            curl_setopt($curl, CURLOPT_URL, $url);            curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);            $postArr = urldecode(json_encode($arr));            curl_setopt($curl, CURLOPT_POST, 1);            curl_setopt($curl, CURLOPT_POSTFIELDS, $postArr);        } else {            $getArr = '';            foreach ($arr as $key => $value) {                $getArr .= "$key=".urlencode($value)."&";            }            $url = substr($url.'?'.$getArr, 0, -1);            curl_setopt($curl, CURLOPT_URL, $url);            curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);        }        $output = curl_exec($curl);        curl_close($curl);        if ($res == 'json') {            if (curl_errno($curl)) {                return curl_error($curl);            } else {                return json_decode($output, true);            }        }    }
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员的碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CURL简介
  • 方法
  • 封装的请求
相关产品与服务
命令行工具
腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档