一只程序原-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

一只程序原

有人问我，我就会讲。

专栏成员

173

文章

130430

阅读量

29

订阅数

Python爬虫之BeautifulSoup

python 爬虫 beautifulsoup

Python爬虫之BeautifulSoup #BeautifulSoup模块简介和安装 from bs4 import BeautifulSoup #CSS 选择器：BeautifulSoup4 #和lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器 #主要的功能也是如何解析和提取 HTML/XML 数据。 #模块下载安装：pip install bs4 #基础例子 html = """ <html><head><title>The Dormouse's story

2022-08-22

3440

Python爬虫之scrapy框架

爬虫 scrapy 容器 python http

里面的parse方法，这个方法有两个作用 1.负责解析start_url下载的Response 对象，根据item提取数据（解析item数据的前提是parse里全部requests请求都被加入了爬取队列） 2.如果有新的url则加入爬取队列，负责进一步处理，URL的Request 对象这两点简单来说就是编写爬虫的主要部分

2022-08-22

3180

Python爬虫之数据写入

Python爬虫之数据写入 #写入到Excel import xlsxwriter #创建文件，并添加一个工作表 workbook=xlsxwriter.Workbook('demo.xlsx') worksheet=workbook.add_worksheet() #在指定位置写入数据 worksheet.write("A1","这是A1的数据") worksheet.write("A2","这是A2的数据") #关闭表格文件 workbook.close() #爬取便民查询网常用号码，并写入到Ex

2022-08-22

6080

Python爬虫之验证码识别

python 爬虫验证码

Python爬虫之验证码识别 #识别车牌号 from aip import AipOcr import re APP_ID = '15469265' API_KEY = 'rAGFtOChXtO7mnRPiwXg1Frf' SECRET_KEY = 'Ailvoijh4X7lQIAoZ58UsGPlaDCmLIt7' client = AipOcr(APP_ID, API_KEY, SECRET_KEY) """ 读取图片 """ def get_file_content(filePath):

2022-08-22

4520

Python爬虫（全）

爬虫 scrapy 容器 python 安全

里面的parse方法，这个方法有两个作用 1.负责解析start_url下载的Response 对象，根据item提取数据（解析item数据的前提是parse里全部requests请求都被加入了爬取队列） 2.如果有新的url则加入爬取队列，负责进一步处理，URL的Request 对象这两点简单来说就是编写爬虫的主要部分

2022-08-22

13.2K0

python 爬虫 xpath

Python爬虫之xpath表达式 #xpath表达式 #有同学说，我正则用的不好，处理HTML文档很累，有没有其他的方法？ #有！那就是XPath，我们可以先将 HTML文件转换成 XML文档， #然后用 XPath 查找 HTML 节点或元素。 #我们需要安装lxml模块来支持xpath的操作。 #使用 pip 安装：pip install lxml #解析字符串形式html text =''' <div> <ul> <li class="item-0"><a href

2022-08-22

2280

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态