前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >跨平台PHP调试器设计及使用方法——协议解析

跨平台PHP调试器设计及使用方法——协议解析

作者头像
方亮
发布2019-01-16 15:10:16
7070
发布2019-01-16 15:10:16
举报
文章被收录于专栏:方亮方亮

        在《跨平台PHP调试器设计及使用方法——探索和设计》一文中,我介绍了将使用pydbgp作为和Xdebug的通信库,并让pydbgp以(孙)子进程的方式存在。《跨平台PHP调试器设计及使用方法——通信》解决了和pydbgp通信的问题,本文将讲解和pydbgp通信协议的问题。(转载请指明出于breaksoftware的csdn博客)

        和Xdebug的通信协议不同,和pydbgp的通信协议其实就是对其调用规则和对返回结果解析的规则。这块技术并没有什么高深之处,只是pydbgp的资料很少,其规则也没有相关说明,只能靠查看源码和实践来收集和分析。我尽量以调用顺序来讲解相关协议。

        首先,我们需要设置IDE Key参数。这步操作我放在start_debugger函数中

代码语言:javascript
复制
    def start_debugger(self):
        if self._pydbgpd:
            return {"ret":1}
        self._pydbgpd = pydbgpd_stub()
        self._pydbgpd.start()
        self._pydbgpd.query('key netbeans-xdebug')

    def stop_debugger(self):
        if self._pydbgpd:
            self._pydbgpd.stop()
            del self._pydbgpd
            self._pydbgpd = None
            
    def is_session(self):
        if not self._pydbgpd:
            return False
        return self._pydbgpd.is_session()

        pydbpgd_stub是《跨平台PHP调试器设计及使用方法——通信》一文介绍的父程序中的“桩”,对它的调用就如同对pydbgpd(子进程中)的调用一样,感受不到跨进程带来的各种不便。stop_debugger用于关闭调试,is_session用于判断调试器是否处在“session阶段”。这些都是通过对pydbgpd_stub对象操作实现的。之后我们所有要和调试器通信的地方都会看到它。         接下来,我们需要告知调试器,我们需要在哪个端口开启监听。这样Xdebug可以通过在配置文件中的配置信息连接到我们开启的端口。

代码语言:javascript
复制
    def start_listen(self, param):
        if False == self._listening:
            data = self._pydbgpd.query('listen -p localhost:9000 start')
            #ERROR: dbgp.server: the debugger could not bind on port 9000.
            if "ERROR" in data:
                return {"ret":0}
            self._listening = True
        return {"ret":1}

        start_listen中,我们通过上述第三行的命令启动端口监听。如果调用成功,则没有任何数据返回。如果调用失败,则会返回错误,比如待绑定的端口被占用时,会返回上述第四行的信息。我们通过返回信息中是否包含ERROR来判断该操作是否成功。

        如果此时有PHP执行触发了调试,则我们需要查看有哪些调试连接已经接入

代码语言:javascript
复制
    def sessions(self,param):
        data = self._pydbgpd.query('sessions')
        sessions = []
        arr = data.split('\n')
        #data = "#2344:<dbgp.server.application instance at 0x025839E0>"
        for item in arr:
           try:
               if not len(item):
                   continue
               res = self._sessions_info_pattern.search(item).groups()
               sessions.append(res[0])
           except Exception,errinfo:
               print errinfo, "sessions error:" + data + "\n"
                
        return sessions

        sessions函数中,我们通过向pydbgp发送“sessions”指令来查看调试接入(会话)信息。上述第五行是一个接入信息的返回数据,如果此时有多条调试接入,则会产生多行信息。我们通过对换行符切分,并对每条数据通过正则提取,获取所有会话号。上述例子中的会话号就是2344。         我们获知会话号后,需要挑选一个需要调试的会话号进行调试,这个时候就需要调用下面的方法

代码语言:javascript
复制
    def select(self,param):
        select_cmd = "select " + param
        ret = self._pydbgpd.query(select_cmd)
        if self.is_session():
            return {"ret":1}
        return {"ret":0}

        select方法传入的是会话号,pydbgp在执行上述第二行的指令后,不会返回任何数据。此时我们可以通过is_session判断调试器是否进入session阶段,如果进入了,则证明执行成功,否则失败。         进入调试后,我们可能需要设置断点(其实没有调试状态也存在设置断点的可能性,而且可能性非常大,所以这种预设性的断点设计也包含在我的设计中,这块在之后的博文中会有介绍。)。Xdebug提供的断点有多种方式,目前我测试的版本尚不支持watch类型,所以这种类型我们也不讨论。我们看下支持的类型:

  1. 行号断点。这种断点方式非常常见,就是我们需要设定文件路径和断点行号。如果设置成功,则程序执行到该文件该行时将会被中断。
  2. 调用断点。这种断点需要设置被调用的函数函数名,它将使得程序中断在该函数被调用前。
  3. 返回断点。这种断点也需要设置被调用的函数函数名,它将使得程序中断在该函数被调用后。
  4. 异常断点。这种断点需要设置异常的类型名,它将使得程序中断在该种异常被抛出前。
  5. 条件断点。这种断点需要设置中断时发生的条件。比如我们调试一个循环,我们可以设置索引值等于某个值时被中断。

        我们看下这些断点的设置方法

代码语言:javascript
复制
    def add_breakpoint(self,breakpointinfo):
        breakpoint_set_type_keys = {
            "line" : {"filename":"-f","lineno":"-n"},
            "call" : {"function":"-m"},
            "return" : {"function":"-m"},
            "exception" : {"exception":"-x"},
            "conditional" : {"filename":"-f","lineno":"-n","expression":"-c"},
            "watch" : {},
        }
        
        query = "breakpoint_set -t " + breakpointinfo["type"]
        for (key,value) in breakpoint_set_type_keys[breakpointinfo["type"]].items():
            if value == "-c":
                expression_de = base64.b64decode(breakpointinfo[key])
                query = query + " " + value + " '" + expression_de + " '"       #maybe bug if expression_de has '
            else:
                query = query + " " + value + " " + breakpointinfo[key]

        data = self._pydbgpd.query(query)
        iteminfo = self._parse_breakpoint_info(data)
        if not iteminfo:
            ret = 0
        else:
            ret = 1
        return {"ret":ret, "breakpoint":iteminfo}

        以设置行号断点为例,我们最终的调用方式是breakpoint_set -t line -f file:///home/work/xxxx.php -n 10。这儿有点特别的是条件断点的设置,因为条件的内容我们无法控制,所以需要使用base64对其进行编码。pydbgp执行新增断点的请求后会返回该断点的信息(实际信息不全,这也将导致我们之后断点相关的逻辑设计的比较曲折)。

        设置完断点后,我们需要查看我们设置了哪些断点。

代码语言:javascript
复制
    def breakpoint_list(self, param):
        data = self._pydbgpd.query("breakpoint_list")
        #data ="""<dbgp.server.breakpoint: id:11900002 type:line filename:file:///var/www/html/index.php lineno:8 function: state:enabled exception: expression: temporary:0 hit_count:0 hit_value:None hit_condition:None>
#<dbgp.server.breakpoint: id:11900003 type:line filename:file:///var/www/html/index.php lineno:9 function: state:enabled exception: expression: temporary:0 hit_count:0 hit_value:None hit_condition:None>"""
        info = []
        arr = data.split('\n') 
        
        for item in arr:
            if not len(item):
                continue
            iteminfo = self._parse_breakpoint_info(item)
            if iteminfo:
                info.append(iteminfo)
        return info

        第三行给出了断点的样例,我们继而调用_parse_breakpoint_info和parse_breakpoint_info方法去提取断点信息

代码语言:javascript
复制
    def _parse_breakpoint_info(self, info):
        iteminfo = {}
        try:
            iteminfo = self.parse_breakpoint_info(info)
        except Exception,errinfo:
            print errinfo, "_parse_breakpoint_info error:" + info + "\n"
        return iteminfo

    #data = "<dbgp.server.breakpoint: id:65920004 type:conditional filename:file:///D:/nginx-1.11.3/html/index.php lineno:30 function: state:enabled exception: expression:$i ==6 temporary:0 hit_count:0 hit_value:None hit_condition:None>"
    def parse_breakpoint_info(self, data):
        breakpoint_info = {}
        keys = ["id","type","filename","lineno","function","state","exception","expression","temporary","hit_count","hit_value","hit_condition"]
        data_end = data.rfind(">")
        for key_index in range(0, len(keys)):
            search_key = " " + keys[key_index] + ":"
            index_start = data.find(search_key) + len(search_key)
            if -1 == index_start:
                raise debugger_exception("parse_breakpoint_info error: no keys" + keys[key_index] )
            if key_index < len(keys) - 1:
                next_key_index = key_index + 1
                search_key = " " + keys[next_key_index] + ":"
                index_end = data.find(search_key)
                if -1 == index_end:
                    raise debugger_exception("parse_breakpoint_info error: no keys" + keys[index_end] )
            else:
                index_end = data_end
            breakpoint_info[keys[key_index]] = data[index_start:index_end]
        return breakpoint_info

        上述第12行列出了断点信息的类型,它们分别是:标识号、类型、文件路径、行号(为行号断点时有效)、函数名(调用和返回断点时有效)、状态(有效还是失效)、异常类型名(异常断点时有效)、表达式、是否为临时断点(只断一次)、命中次数、命中值(猜测,实际没发现有什么数据)和命中条件。由于实际返回的数据信息不全,我们不能全以其信息为准,这块我们将在之后介绍。

        有新增断点就有删除断点,删除断点比较简单,我们只要传入断点ID即可

代码语言:javascript
复制
    def remove_breakpoint(self,breakpointid):
        query = "breakpoint_remove -d " + breakpointid
        data = self._pydbgpd.query(query)
        if "breakpoint removed" in data:
            ret = 1
        else:
            ret = 0
        return {"ret":ret}

        如果删除成功,则会返回breakpoint removed。我们通过返回值判断操作是否成功。

        设置完断点后,我们需要通过“步过”、“步入”,“步出”,“执行”等操作控制程序执行,它们的执行逻辑很简单,且没有返回值

代码语言:javascript
复制
    def step_over(self, param):
        return self._step_cmd("step over")
    
    def step_in(self, param):
        return self._step_cmd("step in")
    
    def step_out(self, param):
        return self._step_cmd("step out")
    
    def run(self, param):
        return self._step_cmd("run")

    def _step_cmd(self,cmd):
        if False == self._pydbgpd.is_session():
            return {}
        data = self._pydbgpd.query(cmd)
        if len(data):
            return {"ret":0}
        else:
            return {"ret":1}

        如果我们执行run之后,程序被中断了,我们可以通过查看状态的命令查看断点调试器的状态

代码语言:javascript
复制
    #0 out of session 1 starting 2 break 3 stopping 4 stopped 5 waiting
    def status(self,param):
        if not self._pydbgpd.is_session():
            return {"ret":1, "status":0}
        
        data = self._pydbgpd.query('status')
        out_of_sesion_status = "invalid cmd"
        starting_status = "Current Status: status [starting] reason[ok]"
        break_status = "Current Status: status [break] reason[ok]"
        stopping_status = "Current Status: status [stopping] reason[ok]"
        stopped_status =  "command sent after session stopped"
        waiting_status = "session timed out while waiting for response"
        
        status = -1
        
        status_map = {
            out_of_sesion_status:0,
            starting_status:1,
            break_status:2,
            stopping_status:3,
            stopped_status:4,
            waiting_status:5 };
            
        for (key,value) in status_map.items():
            if key in data:
                status = value
                break
                
        if not len(data):
            status = 0
            
        return {"ret":1,"status":status}

        starting状态是启动调试后的第一个状态,此时还没进入PHP代码。break状态就是被我们断点中断的状态,或者我们执行“步过”、“步入”和“步出”后的调试器状态。stopping状态是已经不在PHP代码中,但是即将结束的状态。对于一个没有断点的程序,执行了“run”之后就进入stopping状态,而中间不会经过break状态。stopped状态表示该会话已经彻底结束,我们可以退出该会话了。waiting状态在调用非常耗时的操作时会出现。

        如果调试器处于break状态,则我们可以通过查看调用堆栈的方式查看程序执行路径。

代码语言:javascript
复制
    def stack_get(self,param):
        return {"ret":1, "data":self._get_stack_info()}
    
    def _get_stack_info(self, frame = ""):
        if False == self._pydbgpd.is_session():
            return []
        query = 'stack_get ' + frame
        data = self._pydbgpd.query(query)
        #data = "frame: 0 file:///var/www/html/index.php(8) file {main}"
        
        frame_list = []
        arr = data.split('\n')
        
        for item in arr:
            if not len(item):
                continue
            try:
                res = self._stack_get_pattern.search(item).groups()
                info = {}
                info['frame'] = res[0]
                info['filename'] = res[1]
                #info['path'] = info['path'].replace('/', os.sep)
                info['filename_last'] = info['filename'].split('/')[-1]
                info['lineno'] = res[2]
                info['function'] = res[3]
                m1 = md5.new()   
                m1.update(info['filename']) 
                info['file_id'] = m1.hexdigest()
                frame_list.append(info)
            except Exception,errinfo:
                print errinfo, "stack_get error:" + data + "\n"
                
        return 

        如果我们执行stack_get,则会返回全部的调用堆栈信息。如果给stack_get传入堆栈号,则返回该调用栈的信息。一般堆栈信息包含堆栈号、所处的文件路径、所处的行号和函数名。我们在之后的UI层通过这个函数可以动态的更新代码的执行情况。

        我们调试的一个重要的目的就是可以随时查看变量值,所以查看变量也是调试器的重点。通过Xdebug获取所有栈上的变量要分为三步:

  1. 获取调用堆栈深度
  2. 获取context_names
  3. 获取指定堆栈深度的指定context_names下的所有变量

        这一系列操作通过如下操作完成

代码语言:javascript
复制
    def _get_all_variables(self, cur = False):
        all_data = self._get_stack_variables(cur)
        return {"ret":1, "data":all_data}
    
    def _get_stack_variables(self, cur = False):
        info = {}
        data = self._pydbgpd.query('stack_depth')
        #'Stack Depth: 3'
        pattern = re.compile("Stack Depth: (\d+)")
        try:
            res = pattern.search(data).groups()
            for index in range(0, int(res[0])):
                iteminfo = self._get_context_variables(index)
                key = "Frame " + str(index)
                info[key] = iteminfo
                if cur:
                    break
        except Exception,errinfo:
            print errinfo, "_get_stack_variables error:" + data + "\n"
            
        return info
    
    def _get_context_variables(self, depth_id):
        data = self._pydbgpd.query('context_names')
        #data='''0: Locals
        #1: Superglobals
        #2: User defined constants'''
        
        info = {}
        arr = data.split('\n')
                
        for item in arr:
            if not len(item):
                continue
            try:
                res = self._context_names_pattern.search(item).groups()
                iteminfo = self._get_context(depth_id, res[0])
                info[res[1]] = iteminfo
            except Exception,errinfo:
                print errinfo, "context_names error:" + item + "\n"
        
        return info
            
    def _get_context(self, depth_id, context_id):
        query = 'context_get -d ' + str(depth_id) + ' -c ' + str(context_id)
            
        data = self._pydbgpd.query(query)
        #data = '''name: $a type: string value: 123
        #name: $b type: int value: 234'''

        info = []
        arr = data.split('\n')
        
        for item in arr:
            if not len(item):
                continue
            try:
                res = self._context_get_pattern.search(item).groups()
                iteminfo = {}
                iteminfo["name"] = res[0]
                iteminfo["type"] = res[1]
                iteminfo["value"] = res[2]
                info.append(iteminfo)
            except Exception,errinfo:
                print errinfo, "context_get error:" + item + "\n"
                
        return info

        context_names可能用户不大理解,其实它就是变量类型。比如全局变量里我们可以看到Http请求的相关信息。这步操作相对于其他操作需要多次查询和解析,所以它的效率是非常低的。所以我在设计时没有让其自动更新(除非用户选择的展现页为变量页,这样每步操作都要更新变量),也没让变量对比功能自动开启。

        如果调试会话结束,我们可以通过下面的方法退出调试

代码语言:javascript
复制
    def quit(self,param):
        return self._step_cmd("quit")
    
    def stop(self,param):
        return self._step_cmd("stop")
    
    def exit(self,param):
        return self._step_cmd("exit")    

        这样主流的一些操作我们讲解完了,我们再讲解些不太能用到的。比如查看当前执行到的代码上下文,可以使用source命令

代码语言:javascript
复制
    def source(self,param):
        src = self._pydbgpd.query("source")
        if "(u'stack depth invalid', 301)" in src:
            return {"ret": 0}
        return {"ret": 1, "data": src}

        比如我们在break的情况下,需要修改某个变量值,则可以使用eval指令进行代码执行,其实这块功能非常重要

代码语言:javascript
复制
    def eval(self, param):
        query = "eval " + param
        data = self._pydbgpd.query(query)
        return {"ret":1}

        我还开放了命令行式的调试方式,这样用户就可以自己输入调试命令进行调试,这个和dbg很像,于是我要做的就是命令的传导

代码语言:javascript
复制
    def query(self, cmd):
        return self._pydbgpd.query(cmd)

        有了上述的方法,我们可以构建一个简单的调试器。但是由于pydbgp断点信息返回不全,而且我们需要一些高阶功能,比如调试器状态机、预设断点等,使得更高一层的封装整合成为必需。下一博文我们将重点介绍高阶封装相关的内容。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年10月16日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档