前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python爬虫思路

python爬虫思路

作者头像
py3study
发布2020-01-10 12:26:04
5890
发布2020-01-10 12:26:04
举报
文章被收录于专栏:python3python3

python2 爬虫:从网页上采取数据 爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml 1.urllib 2.request 3.bs4 4.正则re 5种数据类型 (1)数字Number (2)字符串String (3)列表List[] 中文在可迭代对象就是unicode对象 (4)元组Tuple() (5)字典Set{} 爬虫思路: 1.静态 urlopen打开网页------获取源码read 2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议) 3.bs4 能够解析HTML和XML #-- coding:utf-8 -- from bs4 import BeautifulSoup #1 #html="<div>2018.1.8 14:03</div>" #soup=BeautifulSoup(html,'html.parser') #解析网页 #print soup.div #2从文件中读取 html='' soup=BeautifulSoup(open('index.html'),'html.parser') print soup.prettify() 4.获取所需信息

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-08-19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档