腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

沈唁志

沈唁志博客是关注PHP开发等技术的个人博客，同时也是个人程序人生的点滴记录和时光储备。

专栏作者

369

文章

1302240

阅读量

72

订阅数

网站怎么快速开通站点LOGO展示权限

搜索引擎网站爬虫

网站能够在搜索引擎展示LOGO标志，是很多站长所梦寐以求的，网站开通站点LOGO后，可以在搜索结果页中显示相关图片

2019-05-22

2.2K0

怎么使用 Git 和 Github 向开源项目提交 Pull Request

git 开源 python 爬虫 ssh

渣渣橘又跟我提了一下毒鸡汤，看了一下之前学的 python 脚本还能用，然后在 Github 上看到了一个爬虫集合的项目，收集各种爬虫

2018-12-06

1.2K0

Python爬虫Chrome网页解析工具-XPath Helper

python 爬虫 html github

之前就说过Python爬虫中Xpath的用法，相信每一个写爬虫、或者是做网页分析的人，都会因为在定位、获取XPath路径上花费大量的时间，在没有这些辅助工具的日子里，我们只能通过搜索HTML源代码，定位一些id，class属性去找到对应的位置，非常的麻烦，今天推荐一款插件Chrome中的一种爬虫网页解析工具：XPath Helper，使用了一下感觉很方便，所以希望能够帮助更多的Python爬虫爱好者和开发者

2018-07-25

3.3K0

USpider～一只超级污的司机蜘蛛

php 爬虫 python api

之前就看到了狂放小朋友的PHP版本的污言爬虫，然后我就征求了一下小朋友的意见，就改成了Python版本的爬虫，也算是当做练手了

2018-07-25

6730

Python爬虫常用的小技巧-伪造随机的User-Agent

不管是做开发还是做过网站的朋友们，应该对于User Agent一点都不陌生，User Agent 中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等通过UA来判断不同的设备或者浏览器是开发者最常用的方式方法，这个也是对于Python反爬的一种策略，但是有盾就有矛啊写好爬虫的原则只有一条: 就是让你的抓取行为和用户访问网站的真实行为尽量一致 1、伪造UA字符串，每次请求都使用随机生成的UA

2018-07-04

1.3K0

Python爬虫常用的小技巧-设置代理IP

python 爬虫 xml

在学习Python爬虫的时候，经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力，所以同一个IP反复爬取同一个网页，就很可能被封，这里讲述一个爬虫技巧，设置代理IP 这里介绍一下免费获取代理IP的方法，这个方法的优点就是免费，但是缺点就是爬取后存在很多不能用的 IP地址取自国内髙匿代理IP网站，西刺代理，我们爬取首页IP地址就足够一般使用，或者你也可以爬取第一页，第二页…的配置环境安装requests库安装bs4库安装lxml库具体代码

2018-06-20

7000

Python爬虫之XPath语法和lxml库的用法

python 爬虫 xml html

本来打算写的标题是 XPath 语法，但是想了一下 Python 中的解析库 lxml，使用的是 Xpath 语法，同样也是效率比较高的解析方法，所以就写成了 XPath 语法和 lxml 库的用法安装为什么要用这个库呢，因为要写爬虫啊，利用 lxml 库来解析 HTML 代码，同时 lxml 也继承了 libxml2 的特性自动修正 HTML 代码，利用pip安装即可 pip install lxml XPath 语法 XPath 是一门在 XML 文档中查找信息的语言，可以用于在 XML 文档中通过

2018-05-24

1.1K0

【收藏】Python 爬虫的工具列表大全

这个列表包含与网页抓取和数据处理的 Python 库。网络通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库（基于 pycurl）。 pycurl – 网络库（绑定 libcurl）。 urllib3 – Python HTTP 库，安全连接池、支持文件 post、可用性高。 httplib2 – 网络库。 RoboBrowser – 一个简单的、极具 Python 风格的 Python 库，无需独立的浏览器即可浏览网页。 MechanicalSoup

2018-05-24

1.8K0

什么是Robots协议,标准写法是什么

搜索引擎爬虫 seo 网站 html

什么是 Robots 协议 Robots 是网站和搜引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被索引到的页面或内容。早期是为了防止搜索引擎抓取网站的一些隐私页面，不想公开展示的页面，Robots 的作用已经不在局限于网页的隐私了，如今已经是作为学习 SEO 的一个最基础的范畴，能够有效提高网站的健康度、纯净度，降低网站垃圾内容收录 User-agent：是定义搜索引擎的，指定搜索引擎的爬取程序，如果想定义所有搜索引擎请用 * ，记住他不能单独使用，他要配合前面两个语法使用（随便一个就行了） D

2018-05-24

1.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态