Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >PHP将相对链接转换为绝对链接

PHP将相对链接转换为绝对链接

作者头像
雪碧君
发布于 2023-02-15 07:31:55
发布于 2023-02-15 07:31:55
1.5K00
代码可运行
举报
运行总次数:0
代码可运行

因为一些学习和研究目的,最近在写一些数据抓取的组件,在网页上很常见的是相对链接,有时候因为所在网页和相对链接的关系不太确定,所以就需要转换一下,本来这个功能实在太简单,直接在网上搜索了一下,但是发现绝大部分代码都是错的,或者说不严谨,随便改一个目录深度就会发生错误。 这里贴一下我的解决方案:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?php


class spider{

/*
$rel            string      相对链接
$baseURL    string      当前所在页面完整地址
*/
    public function absoluteURL( $rel, $baseURL ): string
    {
        // 忽略绝对地址
        if ( strstr( $rel, 'https:/') || strstr($rel,'http:/') || strstr($rel,':/') ){
            return $rel;
        }

        // 结构化当前URL
        $url = parse_url($baseURL);

        $rel = trim($rel);

        $depthPath = [];
        foreach ( explode('/',$url['path']) as $i => $p ){
            if( $p != '' ){
                $depthPath[] = $p;
            }
        }
        $pathDeep = count($depthPath);

        $relDepth = [];
        $rootPath = false;
        $backPathDepth = 0;

        if( strstr($rel,'/') ){

            foreach ( explode("/",$rel) as $i => $r){
                if( $i==0 && $r == '' ){ // 直接根目录
                    $rootPath = true;
                }
                if( $r != '' ){
                    $relDepth[] = $r;
                }
                if( $r === '..' ){
                    $backPathDepth++;
                }
            }
        }else{
            $relDepth = [$rel];
        }

        $new_url = $url['scheme'] . '://' . $url['host'];

        if( !$rootPath ){
            for( $i = 0; $i < $pathDeep - $backPathDepth; $i++ ){

                $new_url .= ('/' . $depthPath[$i]);
            }
        }

        for ( $i = 0; $i < count($relDepth); $i ++ ){

            if( $relDepth[$i] !== '..' && $relDepth[$i] !== '.' ){
                $new_url .= ('/' . $relDepth[$i]);
            }
        }

        return $new_url;
}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python抓取数据_python抓取游戏数据
本文整理自慕课网《Python开发简单爬虫》,将会记录爬取百度百科“python”词条相关页面的整个过程。
全栈程序员站长
2022/09/20
2K0
php前后台设计常用函数类
V站笔记 <?php //因为前后台都要用到,所以放在supermario文件夹下方便重用 /** * 喔~可爱滴小数点~喔~可爱滴千位数~ * 如果位数超过4位,则将第3位前增加, * @param
V站CEO-西顾
2018/06/10
1.4K0
PHP实现网页URL爬虫
爬虫一般是指网络爬虫。网络爬虫又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网页URL爬虫是指爬取html网页上所有URL的爬虫。
素浅
2020/12/18
3.1K0
火狐浏览器显示“已阻止载入混合活动内容“的解决方法
从 Firefox 18 开始,如果 HTTPS 页面中包含非加密的 HTTP 内容,浏览器会在控制台输出警告,记录 Mixed Active Content 请求。而从 Firefox 23 开始,浏览器会默认阻止 HTTPS 页面中可能影响网页安全的 HTTP 请求(即阻止 Mixed Active Content)。这样做会牺牲一些网站的兼容性,但对安全性的提高是很有帮助的。
全栈程序员站长
2021/11/08
1.6K0
火狐浏览器显示“已阻止载入混合活动内容“的解决方法
Chapter05 | 抓取策略与爬虫持久化
OPIC,是Online Page Importance Computation的缩写,是一种改进的PageRank算法
不温卜火
2020/10/28
9230
Chapter05 | 抓取策略与爬虫持久化
PHP中使用DOMDocument来处理HTML、XML文档
其实从PHP5开始,PHP就为我们提供了一个强大的解析和生成XML相关操作的类,也就是我们今天要讲的 DOMDocument 类。不过我估计大部分人在爬取网页时还是会喜欢用正则去解析网页内容,学了今天的这个类下回就可以尝试下使用这个PHP自带的方式来进行解析分析了。
硬核项目经理
2020/05/13
3.3K0
Python 网络爬虫入门详解
网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容。
全栈程序员站长
2022/07/22
5240
Python 网络爬虫入门详解
Java 动手写爬虫: 二、 深度爬取
第二篇 前面实现了一个最基础的爬取单网页的爬虫,这一篇则着手解决深度爬取的问题 简单来讲,就是爬了一个网页之后,继续爬这个网页中的链接 1. 需求背景 背景比较简单和明确,当爬了一个网页之后,目标是不要就此打住,扫描这个网页中的链接,继续爬,所以有几个点需要考虑: 哪些链接可以继续爬 ? 是否要一直爬下去,要不要给一个终止符? 新的链接中,提取内容的规则和当前网页的规则不一致可以怎么办? 2. 设计 针对上面的几点,结合之前的实现结构,在执行 doFetchPage 方法获取网页之后,还得做一些其他的操
一灰灰blog
2018/02/06
2K0
Java 动手写爬虫: 二、 深度爬取
关于weiphp的openid外链分享的严重BUG
weiphp微信开发框架存在这样一个问题,当用户分享某个页面到好友、朋友圈时会附加上自身的openid(openid是微信公众号来识别用户的唯一ID),甚至当其他用户点击链接访问时,框架以为是前者的用户身份,而且没有校验。这点BUG无论对于业务还是安全性来说都影响非常大。 在此简单做一说明及修复方案,框架版本:2.0,3.0某些版本也存在。 首先是业务逻辑方面,例如官方附带的插件,投票、填表等。 首先通过关键词触发Vote插件  .../Vote/WeixinAddonModel.class.php  Vo
96php.cn
2018/04/28
1.1K0
10个字符串相关的PHP代码片段
1、自动移除字符串中的 HTML 标记 在用户表单中,你可能希望移除所有不必要的 HTML 标记。使用 strip_tags() 函数可以简单地做到这一点: $text = strip_tags($i
wangxl
2018/03/07
1K0
html基础
<head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
wolf
2020/09/18
2.1K0
简易 PHP 网址缩短
轮廓:输入有效的长网址并进行缩短,出现一个弹出框,其中包含一个短网址和一个保存按钮(编辑或保存短网址)单击保存按钮后,页面重新加载,并显示创建的短网址、源网址等信息。
Dabenshi
2023/10/10
2510
Python爬取美女图片 爬虫基础
作为一个考研狗,每天除了日复一日的复习外,偶尔也想给自己寻找一些生活的小乐趣,今天突然想到了自己曾经稍微接触的爬虫,想看看可以爬取些图片放到电脑上,就花了些时间改了改之前的爬虫代码,爬取了一部分照片先量一下战绩吧。照片不多但也算是自己的一次爬虫小经验。
全栈程序员站长
2022/09/13
6640
PHP 获取网页标题(title)、描述(description)、关键字(keywords)等meta信息
米扑导航在收集网站、验证网站时,需要采集网页标题(title)、描述(description)、关键字(keywords)等meta信息
阳光岛主
2019/02/18
4.4K0
wordpress调用函数大全
WordPress Header头部 PHP代码 (注: 也就是位于<head>和</head>之间的PHP代码)
纯情
2023/04/26
5600
使用Python的BeautifulSoup库实现一个可以爬取1000条百度百科数据的爬虫
BeautifulSoup安装很简单,我们可以直接使用pip来安装BeautifulSoup,安装命令如下:
端碗吹水
2020/09/23
2.5K0
使用Python的BeautifulSoup库实现一个可以爬取1000条百度百科数据的爬虫
PHP核心技术经典面试题
31.PHP中如何判断一个字符串是否是合法的日期模式:2007-03-13 13:13:13。要求代码不超过5行。(酷讯)
友儿
2022/09/11
2.8K0
深入了解GOT,PLT和动态链接
之前几篇介绍exploit的文章, 有提到return-to-plt的技术. 当时只简单介绍了 GOT和PLT表的基本作用和他们之间的关系, 所以今天就来详细分析下其具体的工作过程.
evilpan
2023/02/12
1.6K0
深入了解GOT,PLT和动态链接
python实现多线程爬虫
ubuntu16.04,python3.6,bs4,virtualenv(虚拟环境)
会呼吸的Coder
2020/02/17
9110
网页页面下各种标签的含义
编码格式 告诉给浏览器用什么方式来都这页代码,,这里是用UTF-8编码的,utf-8是国际编码,实用性比较强推荐使用。
前端皮皮
2020/11/26
1.7K0
相关推荐
Python抓取数据_python抓取游戏数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验