1、requests 带headers import requests from bs4 import BeautifulSoup headers = { ’ User-Agent ’:’ Mozilla/5 . 0 (Windows NT 6 .1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrorne/53.0.2785 . 143 Safari/537.36 ’ } res = requests.get ( ’ http : //bj . xiaozhu .com/ ’, headers=headers) print (res .text) soup= BeautifulSoup(res.text,’ html.parser ’) print(soup.prettify()) 2、beautifulsoup的4种解析库
image.png
beautifulsoup.find_all soup.find all (’ div ’, attrs={ ” class”:” item” } ) beautifulsoup.selector() p=soup.selector(div.item >a> hl) p.get_text() #中间文字内容 3、 1 example:爬取北京地区短租房信息
image.png
image.png
image.png
2 example:爬取酷狗TOP500的数据
image.png
3 example:爬取斗破苍穹小说
image.png
4 example:爬取糗事百科
image.png
4、re修饰符
image.png
5 xpath
image.png
pip install lxml
from lxml import etree selector=etree.HTML(res.text) id=selector.xpath('//')
image.png
6 5 example:爬取豆瓣图书TOP250的数据
image.png
6 example:爬取起点中文网小说信息
image.png
7 example:爬取PEXELS图片
image.png
image.png
8 example:爬取糗事百科的用户地址信息
image.png
image.png
9 example:爬取豆瓣音乐TOP250的数据
image.png
image.png
image.png
10 example:爬取豆瓣电影TOP250的数据
image.png
image.png
image.png
11 example:爬取简书网热评文章
image.png
image.png
12 example:爬取转转网二手市场商品信息
13 example:爬取简书网用户动态信息
image.png
image.png
14 example:爬取简书网7日热门信息
image.png
image.png
15 example:爬取拉钩网招聘信息
image.png
image.png
16 example:爬取新浪微博好友圈信息
pip install jieba
TAGUL词云制作
image.png
image.png
image.png
image.png
17 example:
image.png
xiaozhuspider.py????
image.png
image.png
18 example:爬取简书网热门专题信息
image.png
image.png
image.png
19 example:爬取知乎网python精华话题
image.png
image.png
image.png
image.png
20 example:爬取简书网专题收录文章
image.png
image.png
CREATE TABLE jianshul (
USER TEXT,
TIME TEXT,
title TEXT,
VIEW TEXT,
COMMENT TEXT,
lik TEXT,
gain TEXT
)ENGINE INNODB DEFAULT CHARSET=utf8;
image.png
image.png
21 example:爬取简书网推荐信息
image.png
image.png
image.png
7 json.loads() x.get()
image.png
8 pymongo c=pymongo.MongoClient('localhost',27017) x=c['username'] x.insert_one({'a':1,'x':2})
mongoexport -d mydb -c test --csv -f name,sex,grade -o test.csv 9 pymysql import pymysql conn=pymysql.connect(host='',user=,passwd=,db=,port=,charaset='') cursor=conn.cursor() cursor.execute('xx') conn.commit() 10 多进程 from multiprocessing import Pool pool=Pool(processes=4) pool.map(func,iterable,[,chunksize]) 11 cookie
image.png
12 jieba词频分析
image.png
13 selenium
driver.implicitly_wait(10)
driver.switch_to_frame()
14 csv.DictReader(fp) for row in reader:
image.png