前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python 匿名代理访问浏览器

python 匿名代理访问浏览器

作者头像
用户5760343
发布2019-07-31 15:59:38
6560
发布2019-07-31 15:59:38
举报
文章被收录于专栏:sktjsktj

!/usr/bin/python

coding=utf-8

import mechanize import cookielib import random

class anonBrowser(mechanize.Browser): def init(self, proxies = [], user_agents = []): mechanize.Browser.init(self) self.set_handle_robots(False) # 可供用户使用的代理服务器列表 self.proxies = proxies # user_agent列表 self.user_agents = user_agents + ['Mozilla/4.0 ', 'FireFox/6.01','ExactSearch', 'Nokia7110/1.0'] self.cookie_jar = cookielib.LWPCookieJar() self.set_cookiejar(self.cookie_jar) self.anonymize()

代码语言:javascript
复制
# 清空cookie
def clear_cookies(self):
    self.cookie_jar = cookielib.LWPCookieJar()
    self.set_cookiejar(self.cookie_jar)

# 从user_agent列表中随机设置一个user_agent
def change_user_agent(self):
    index = random.randrange(0, len(self.user_agents) )
    self.addheaders = [('User-agent',  ( self.user_agents[index] ))]         
        
# 从代理列表中随机设置一个代理
def change_proxy(self):
    if self.proxies:
        index = random.randrange(0, len(self.proxies))
        self.set_proxies( {'http': self.proxies[index]} )

# 调用上述三个函数改变UA、代理以及清空cookie以提高匿名性,其中sleep参数可让进程休眠以进一步提高匿名效果
def anonymize(self, sleep = False):
    self.clear_cookies()
    self.change_user_agent()
    self.change_proxy()

    if sleep:
        time.sleep(60)

!/usr/bin/python

coding=utf-8

from anonBrowser import * from BeautifulSoup import BeautifulSoup import os import optparse import re

def printLinks(url): ab = anonBrowser() ab.anonymize() page = ab.open(url) html = page.read() # 使用re模块解析href链接 try: print '[+] Printing Links From Regex.' link_finder = re.compile('href="(.*?)"') links = link_finder.findall(html) for link in links: print link except: pass # 使用bs4模块解析href链接 try: print '\n[+] Printing Links From BeautifulSoup.' soup = BeautifulSoup(html) links = soup.findAll(name='a') for link in links: if link.has_key('href'): print link['href'] except: pass

def main(): parser = optparse.OptionParser('[*]Usage: python linkParser.py -u <target url>') parser.add_option('-u', dest='tgtURL', type='string', help='specify target url') (options, args) = parser.parse_args() url = options.tgtURL

代码语言:javascript
复制
if url == None:
    print parser.usage
    exit(0)
else:
    printLinks(url)

if name == 'main': main()

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.07.30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • !/usr/bin/python
  • coding=utf-8
  • !/usr/bin/python
  • coding=utf-8
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档