首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    用python爬虫抓站的一些技巧总结

    首先利用工具截取所要填表的内容 比如我一般用 firefox+httpfox插件来看看自己到底发送了些什么包 这个我就举个例子好了,以verycd为例,先找到自己发的POST请求,以及 POST表单项:...可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项,其中fk是随机生 成的(其实不太随机,看上去像是把epoch时间经过简单的编码生成的.../', 'fk':fk, 'login_submit':'登录' }) - 然后生成http请求,再发送请求: req = urllib2.Request( url = 'http://secure.verycd.com.../signin/*/http://www.verycd.com/', data = postdata) result = urllib2.urlopen(req).read() - 3.3 伪装成浏览器访问.../signin/*/http://www.verycd.com/', data = postdata, headers = headers ) #... - 3.4 反”反盗链” 某些站点有所谓的反盗链设置

    72950

    史上最全 Python 爬虫抓取的技巧总结

    比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包 这个我就举个例子好了,以verycd为例,先找到自己发的POST请求,以及POST表单项: 可以看到verycd的话需要填username.../signin/*/http://www.verycd.com/', data = postdata ) result = urllib2.urlopen(req).read() 3.3 伪装成浏览器访问...6 gzip/deflate支持 现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。.../', 'login_submit':u'登录'.encode('utf-8'), 'save_cookie':1,}) url = 'http://www.verycd.com/signin'...self.opener.open(url,data).read() 于是在Fetcher初始化时便会自动登录VeryCD网站。

    1.4K50

    吴洪声十问TapTap黄一孟:跟着你的兄弟们赚钱了吗?

    很有意思的一点是,我第一次创业做VeryCD,其实跟Netflix初创期的东西很像。他们当时就是邮寄光盘给别人,VeryCD的域名顾名思义,起初是想做一个刻光盘的网站。...这才有了后来的VeryCD。 第三问 吴洪声:如果今天的你再重新回到去做电驴这款产品的时候,你认为会有哪些坑是你能避开的?讲几个例子?...VeryCD的商业模型只是让用户得到回报,但是没有形成好的商业循环。 而好的商业循环应该是,用户、网站经营者、内容创造者,都应该获得长期的利益均衡。...而VeryCD是一个创立之初没有成熟思考的产品,无法形成商业循环,短期内可以获得很不错的流量,但长期发展时面临如何健康发展的难题。...而正因为我们并没有通过VeryCD获得商业回报,使得后期也无力与迅雷、优酷、土豆等等进行竞争,没有能力向他们一样提供高带宽和高速下载。

    1.1K10

    Python爬取网站的一些小技巧

    比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包 这个我就举个例子好了,以verycd为例,先找到自己发的POST请求,以及POST表单项: 可以看到verycd的话需要填username...6 gzip/deflate支持 现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。...socket socket.setdefaulttimeout(10) #设置10秒后连接超时 5、登陆 登陆更加简化了,首先build_opener中要加入cookie支持,参考“总结”一文;如要登陆VeryCD...,给Fetcher新增一个空方法login,并在init()中调用,然后继承Fetcher类并override login方法: 于是在Fetcher初始化时便会自动登录VeryCD网站。

    94650
    领券