前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >XssHtml – 基于白名单的富文本XSS过滤类

XssHtml – 基于白名单的富文本XSS过滤类

作者头像
phith0n
发布于 2020-10-15 02:10:21
发布于 2020-10-15 02:10:21
1.6K00
代码可运行
举报
运行总次数:0
代码可运行

啦啦啦,去了北京参加荣耀6的发布会,真心不错呀这款手机,在这里无耻地推荐一下。与会的同学都获得了一枚荣耀6,说说我的感受吧:CPU真心给力,跑分很高;价格合理,2000是荣耀一贯的高性价比;特权给力,寝室的Chinanet可以免费用了;相机真不错,全景拍照,把整个鸟巢拍得一清二楚,抓拍也很给力,黑屏状态下按两次音量下就能在0.6秒完成一次拍摄;触屏很舒服,滑动没有一丝卡顿。

好了,去北京之前freebuf上投了一篇文章,发到博客里吧。

关于富文本XSS,我在之前的一篇文章里(http://www.freebuf.com/articles/web/30201.html)已经比较详细地说明了一些开源应用使用的XSS Filter以及绕过方法。之前我也总结了一些filter的缺点,利用白名单机制完成了一个XSS Filter类,希望能更大程度地避免富文本XSS的产生。

总结一下现存的一些XSS Filter的缺点,可以归纳成以下几条:

  1. 黑名单过滤一些标签,但没有考虑全面。比如<svg>、<object>、<input>等
  2. 黑名单过滤一些属性,但没有考虑全面,比如onfocus、onfocusin等
  3. 对伪协议考虑不全面,比如<a href=javascript:alert(1)>,有时候只是简单过滤script这种关键词,但总能用字符编码绕过
  4. 过滤关键词时过于单纯,比如直接将script过滤为空,导致使用scrscriptipt就能绕过。再比如直接将字符实体转换为原字符,导致使用嵌套的字符实体来绕过。
  5. 对IE的特性了解不深,比如expression,中间可以加\,IE7下可以加/**/来绕过。

而一般提供给一般用户使用的富文本编辑器,都是一些很常见功能,比如图片(表情)、超链接、加粗、加斜、字号、字体、颜色、分隔符等,所以我们完全可以用白名单的思想去写一个富文本过滤器,将编辑器中最常用到的一些功能做相应的过滤,其他标签、属性统统丢弃,来达到过滤XSS的效果。

所以我的XssHtml类设计思路是这样:首先用strip_tags清理掉白名单外、不规范的标签,然后用DOMDocument类加载这个HTML进DOM中。遍历DOM,删除白名单外的属性,并强制判断并给非法的href链接前面加入http://。

最后再将过滤完的DOM导出成HTML返回。

这样做有几个好处:

  1. 整个类设计简单,只要创建好对象,调用一个方法即可得到过滤结果。
  2. 白名单处理,能考虑到所有情况
  3. 用PHP自带的DOMDocument类处理html,能有效处理一些不规则的内容。
  4. 面向对象类设计,以后想增加其他标签,写针对性的代码可以直接调用之前写好的方法处理。

不过也有一些缺陷,就是过滤XSS不支持IE6及以下浏览器。因为IE6下奇葩特性太多了,会严重影响过滤器的效果与性能,所以我就没有考虑一些IE6的特性。

总的来说这应该是很多不了解安全的程序员的福音了。

类不长,贴出来吧:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?php
/**
 * PHP 富文本XSS过滤类
 *
 * @package XssHtml
 * @version 1.0.0 
 * @link http://phith0n.github.io/XssHtml
 * @since 20140621
 * @copyright (c) Phithon All Rights Reserved
 *
 */

#
# Written by Phithon <root@leavesongs.com> in 2014 and placed in
# the public domain.
#
# phithon <root@leavesongs.com> 编写于20140621
# From: XDSEC <www.xdsec.org> & 离别歌 <www.leavesongs.com>
# Usage: 
# <?php
# require('xsshtml.class.php');
# $html = '<html code>';
# $xss = new XssHtml($html);
# $html = $xss->getHtml();
# ?\>
# 
# 需求:
# PHP Version > 5.0
# 浏览器版本:IE7+ 或其他浏览器,无法防御IE6及以下版本浏览器中的XSS
# 更多使用选项见 http://phith0n.github.io/XssHtml

class XssHtml {
    private $m_dom;
    private $m_xss;
    private $m_ok;
    private $m_AllowAttr = array('title', 'src', 'href', 'id', 'class', 'style', 'width', 'height', 'alt', 'target', 'align');
    private $m_AllowTag = array('a', 'img', 'br', 'strong', 'b', 'code', 'pre', 'p', 'div', 'em', 'span', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'table', 'ul', 'ol', 'tr', 'th', 'td', 'hr', 'li', 'u');
    /**
     * 构造函数
     *
     * @param string $html 待过滤的文本
     * @param string $charset 文本编码,默认utf-8
     * @param array $AllowTag 允许的标签,如果不清楚请保持默认,默认已涵盖大部分功能,不要增加危险标签
     */
    public function __construct($html, $charset = 'utf-8', $AllowTag = array()){
        $this->m_AllowTag = empty($AllowTag) ? $this->m_AllowTag : $AllowTag;
        $this->m_xss = strip_tags($html, '<' . implode('><', $this->m_AllowTag) . '>');
        if (empty($this->m_xss)) {
            $this->m_ok = FALSE;
            return ;
        }
        $this->m_xss = "<meta http-equiv=\"Content-Type\" content=\"text/html;charset={$charset}\">" . $this->m_xss;
        $this->m_dom = new DOMDocument();
        $this->m_dom->strictErrorChecking = FALSE;
        $this->m_ok = @$this->m_dom->loadHTML($this->m_xss);
    }

    /**
     * 获得过滤后的内容
     */
    public function getHtml()
    {
        if (!$this->m_ok) {
            return '';
        }
        $nodeList = $this->m_dom->getElementsByTagName('*');
        for ($i = 0; $i < $nodeList->length; $i++){
            $node = $nodeList->item($i);
            if (in_array($node->nodeName, $this->m_AllowTag)) {
                if (method_exists($this, "__node_{$node->nodeName}")) {
                    call_user_func(array($this, "__node_{$node->nodeName}"), $node);
                }else{
                    call_user_func(array($this, '__node_default'), $node);
                }
            }
        }
        return strip_tags($this->m_dom->saveHTML(), '<' . implode('><', $this->m_AllowTag) . '>');
    }

    private function __true_url($url){
        if (preg_match('#^https?://.+#is', $url)) {
            return $url;
        }else{
            return 'http://' . $url;
        }
    }

    private function __get_style($node){
        if ($node->attributes->getNamedItem('style')) {
            $style = $node->attributes->getNamedItem('style')->nodeValue;
            $style = str_replace('\\', ' ', $style);
            $style = str_replace(array('&#', '/*', '*/'), ' ', $style);
            $style = preg_replace('#e.*x.*p.*r.*e.*s.*s.*i.*o.*n#Uis', ' ', $style);
            return $style;
        }else{
            return '';
        }
    }

    private function __get_link($node, $att){
        $link = $node->attributes->getNamedItem($att);
        if ($link) {
            return $this->__true_url($link->nodeValue);
        }else{
            return '';
        }
    }

    private function __setAttr($dom, $attr, $val){
        if (!empty($val)) {
            $dom->setAttribute($attr, $val);
        }
    }

    private function __set_default_attr($node, $attr, $default = '')
    {
        $o = $node->attributes->getNamedItem($attr);
        if ($o) {
            $this->__setAttr($node, $attr, $o->nodeValue);
        }else{
            $this->__setAttr($node, $attr, $default);
        }
    }

    private function __common_attr($node)
    {
        $list = array();
        foreach ($node->attributes as $attr) {
            if (!in_array($attr->nodeName, 
                $this->m_AllowAttr)) {
                $list[] = $attr->nodeName;
            }
        }
        foreach ($list as $attr) {
            $node->removeAttribute($attr);
        }
        $style = $this->__get_style($node);
        $this->__setAttr($node, 'style', $style);
        $this->__set_default_attr($node, 'title');
        $this->__set_default_attr($node, 'id');
        $this->__set_default_attr($node, 'class');
    }

    private function __node_img($node){
        $this->__common_attr($node);

        $this->__set_default_attr($node, 'src');
        $this->__set_default_attr($node, 'width');
        $this->__set_default_attr($node, 'height');
        $this->__set_default_attr($node, 'alt');
        $this->__set_default_attr($node, 'align');

    }

    private function __node_a($node){
        $this->__common_attr($node);
        $href = $this->__get_link($node, 'href');

        $this->__setAttr($node, 'href', $href);
        $this->__set_default_attr($node, 'target', '_blank');
    }

    private function __node_embed($node){
        $this->__common_attr($node);
        $link = $this->__get_link($node, 'src');

        $this->__setAttr($node, 'src', $link);
        $this->__setAttr($node, 'allowscriptaccess', 'never');
        $this->__set_default_attr($node, 'width');
        $this->__set_default_attr($node, 'height');
    }

    private function __node_default($node){
        $this->__common_attr($node);
    }
}

?>

具体使用方法可以参阅:http://phith0n.github.io/XssHtml/ 这里有详细说明。

我还在自己主机上搭建了一个使用该类的一个test,希望有同学能找到BUG,完善过滤类。地址是 http://xsshtml.leavesongs.com/

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Python函数用法
python中函数的参数有位置参数、默认参数、可变参数、命名关键字参数和关键字参数,这个顺序也是定 义函数时的必须顺序。
星陨1357
2023/03/14
4190
python3--函数进阶
TypeError: func() missing 4 required keyword-only arguments: 'a', 'b', 'c', and 'd'
py3study
2018/08/02
5040
2.Python函数的进阶
昨天我们从形参角度,讲了两种参数,一个是位置参数,位置参数主要是实参与形参从左至右一一对应,一个是默认值参数,默认值参数,如果实参不传参,则形参使用默认参数。那么无论是位置参数,还是默认参数,函数调用时传入多少实参,我必须写等数量的形参去对应接收, 如果不这样,那么就会报错:
changxin7
2019/09/10
3040
2.Python函数的进阶
Python 变量作用域与函数
一个程序的所有的变量并不是在哪个位置都可以访问的,访问权限决定于这个变量是在哪里赋值的,变量的作用域决定了在哪一部分程序你可以访问哪个特定的变量名称,两种最基本的变量作用域,第一种是局部变量,第二种是全局变量.定义在函数内部的变量拥有一个局部作用域,定义在函数外的拥有全局作用域,而局部变量只能在其被声明的函数内部访问,全局变量则可以在整个程序范围内访问.
微软技术分享
2022/12/28
2.4K0
【Python】笔记第三部分:函数
对于 pycharm 而言,调试时使用快捷键 F8 step over 是不会进入到函数中的,F7 step into 是会进入的。换句话说,F7 会进入到代码的下一层,F8 会跳转到当前层的下一行。
杨丝儿
2022/02/17
3510
【Python】笔记第三部分:函数
day 10 函数的进阶
位置  *args 默认值  **kwargs   以后写参数,可以随意的进行搭配
py3study
2020/01/20
2970
Python之函数
简介: 定义函数: def xx():     print("xxx") 执行函数 xx() 函数返回值: def emile(): print("发邮件") return '123' r = emile() print(r) 结果: 发邮件 123 上述中,return为返回值,返回给r。return想返回什么就返回什么,如果没有写返回值,就返回None,就是空。 def emile(): if True: return True else:
用户1173509
2018/01/17
7900
Python之函数
python入门到放弃-函数专题
一、函数的定义 函数是对代码块和功能的封装和定义 #函数的语法:def是define的意思,定义 最基本的语法: def 函数名(): 函数体    函数名() #调用函数 带有参数的语法 def 函数名(形参列表): 函数体(代码块,return) 函数名(实参列表) :调用 #例子:函数执行过程 # def wan(): #定义函数 # print("今天一起去玩") # print("去哪里玩呢") # print("我不知道"
老油条IT记
2020/03/20
1.8K0
3.(补充)python中的lambda
从上面的例子可以看出,lambda函数不需要手动定义返回值,表达式的结果,就会直接作为返回值返回。
py3study
2020/01/10
3210
Python3 | 练气期,函数创建、参数传递、作用域!
描述:上一章,我们学习了Python3编程中最基本而得流程控制语句,相信大家在作者的实践下也已经掌握了相关关键字了吧,这一章我们一起学习Python3编程入门中函数定义、函数调用、函数参数(传递、类型),匿名函数、递归函数。内嵌函数和闭包、装饰器函数,以及命名空间作用域的讲解,它也是Python编程中最基础且常用的部分,所以说也是需要我们掌握的。
全栈工程师修炼指南
2024/07/29
610
Python3 | 练气期,函数创建、参数传递、作用域!
python学习
delete = users.pop(0)可以将删除的数据存储在delete中,而del仅仅是删除
sugarbeet
2022/09/26
8560
Python函数
概念:在一个完整的项目中,某些功能会被反复使用。那么会将某段代码封装成函数,当我们要使用功能的时候直接调用函数即可
星哥玩云
2022/09/08
4160
python3--函数初识
函数能提高应用的模块性,和代码的重复利用率。已经知道python提高了许多内建函数,比如print(),len()等。但你也可以自己创建函数,这被叫做用户自定义函数。
py3study
2018/08/02
5240
Python函数 & 变量
注意:因为函数体相对比较独立,函数定义的上方,应该和其他代码 (包括注释) 保留两个空行.
鱼多多
2023/12/27
2370
python中作用域与函数嵌套
实际上我们在定义函数的时候,如果省略了星号,那么在调用函数的时候必须要省略星号,除非我们拆解后的参数个数刚好相等。
刘金玉编程
2019/07/31
7190
Python升级之路( Lv5 ) 函数
第一章 Python 入门 第二章 Python基本概念 第三章 序列 第四章 控制语句 第五章 函数
时间静止不是简史
2022/12/02
1.2K0
Python升级之路( Lv5 ) 函数
Python入门之函数的嵌套/名称空间/作用域/函数对象/闭包函数
本篇目录:     一、函数嵌套     二、函数名称空间与作用域     三、函数对象     四、闭包函数 ============================================================================== 一、函数嵌套 1. 函数的嵌套调用 函数内又调用了其他函数(函数平级) def max(x,y): return x if x > y else y def max4(a,b,c,d): res1=max(a,b)
Jetpropelledsnake21
2018/05/02
1.3K0
Python入门之函数的嵌套/名称空间/作用域/函数对象/闭包函数
2022年最新Python大数据之Python基础【六】函数与变量
文章目录 1、公共方法 2、公共函数 3、推导式 4、函数介绍 5、函数参数 6、函数返回值 7、函数的嵌套 8、局部变量和全局变量 9、gloal 10、函数参数进阶 1、公共方法 + 加法运算适用于所有的基础数据类型(int float bool) 加法运算所有两侧要是同种数据类型 加法运算再容器类型中是拼接的意思,不是相加计算值 # +法运算,都可以用于哪些数据类型之间 # int float bool 肯定可以用于加法运算,不再赘述 print(1 + 12.3) # 13.3 # st
Maynor
2022/09/26
1.2K0
【Python 初级函数详解】—— 参数沙漠与作用域丛林的求生指南
我们知道数学中的函数,我们输入一个数,在通过对应的映射关系得到另一个数,如下图给出了两个简单的数学函数:
换一颗红豆
2025/03/03
560
【Python 初级函数详解】—— 参数沙漠与作用域丛林的求生指南
Python 变量的作用域
变量可以使用的范围,程序的变量并不是哪个位置都可以访问的,访问的权限决定于变量时在哪里定义的
星哥玩云
2022/09/08
7760
Python 变量的作用域
相关推荐
Python函数用法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验