腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

明天依旧可好的专栏

专栏作者

109

文章

127896

阅读量

27

订阅数

实战项目一：爬取西刺代理（获取代理IP）

爬虫的学习就是与反扒措施、反扒系统做斗争的一个过程，而使用代理IP是我们重要的防反扒的重要措施，代理IP的来源有两种一是你花钱去购买商家会给你提供一个接口你直接调用就可以了，二是自己在网上爬取高效IP。在这篇博客中我重点给大家讲一下如何从网上获取高效IP，我们下面的IP来源于西刺代理，这是我很久之前写的一篇博客，今天来进行“翻新”一番希望可以帮助到大家。

2019-03-05

5.1K1

爬虫中的代理问题

网站 http 爬虫编程算法 https

最近身边很多人都遇到爬虫中的代理问题，写下这篇博客来记录自己所学，希望可以帮助到你们。

2019-01-22

9690

Python3--批量爬取数据之调用有道api进行翻译

上代码： # coding=utf-8 import urllib,urllib.request from fake_useragent import UserAgent import json import time import hashlib import urllib.parse import requests import random import csv,re class YouDaoFanyi: def __init__(self, appKey, appSecret):

2019-01-22

1K0

Python中的异常处理

异常的处理机制 try: result = 4 / 0 except Exception as e: print('输出异常：'+str(e)) else: print("try子句没有异常，输出result结果：", result) finally: print("程序结束，无论try子句是否有异常这条语句都会被执行！") ''' 输出：输出异常：division by zero 程序结束，无论try子句是否有异常这条语句都会被执行！ ''' 首先，执行try子句

2019-01-22

1.4K0

Python3--批量爬取数据之调用百度api进行翻译

上代码： #************************************************************ #文件功能：利用百度翻译将英文名翻译成中文 #************************************************************ import csv,requests,random from fake_useragent import UserAgent import hashlib import json import ti

2019-01-22

1K0

爬虫专栏目录

版权声明：转载注明博主：明天依旧可好；来源： https://blog.csdn.net/qq_38251616/article/details/83145025

2019-01-22

7790

Python3--批量爬取数据之调金山词霸api进行翻译

上代码： #/usr/bin/env python3 #coding=utf8 from fake_useragent import UserAgent import http.client import hashlib import urllib import random,csv import json,time import requests #获取IP列表并检验IP的有效性 def get_ip_list(): f=open('IP.txt','r') ip_list=f

2019-01-22

1.1K0

爬虫训练之--获取错误并将其保存进本地文件

首先导入包： import traceback 将错误写入文件： f_error=open('error_list.txt','a+',encoding='utf-8') traceback.print_exc(file = f_error) f_error.close(

2019-01-22

5400

知识点讲解一：Xpath的介绍和用法

xml xslt & xpath 爬虫

本来是不打算学Xpath的，个人觉得BeautifulSoup()完全能够满足自己的爬虫需求了。但是在学Selenium是时候教程用的是Xpath，加上之前身边的小伙伴也一直在给自己安利Xpath，索性就了解一下。

2019-01-22

7190

Python爬虫之图片爬取

爬虫 python 网站 html

爬虫简介：（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。网络爬虫始于一张被称作种子的统一资源地址（URL）列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张“待访列表”，即所谓爬行疆域。此疆域上的URL将会被按照一套策略循环来访问。如果爬虫在执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以较容易的被查看。阅读和浏览他们存储的网站上并即时更新的信息，这些被存储的网页又被称为“快照”。越大容量的网页意味着网络爬虫只能在给予的时间内下载越少部分的网页，所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者被取代。一些服务器端软件生成的URL（统一资源定位符）也使得网络爬虫很难避免检索到重复内容。（摘自：维基百科）

2019-01-22

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态