来源:程序人生
ID:coder_life
今天,手把手教你入门 Python 爬虫,爬取猫眼电影 TOP100 榜信息。
作者 | 丁彦军
对于 Python 初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,练习 Python 的手把手系列,手把手教你入门 Python 爬虫,爬取猫眼电影 TOP100 榜信息,将涉及到基础爬虫架构中的 HTML 下载器、HTML 解析器、数据存储器三大模块:
一、构造 HTML 下载器
import requests
from requests.exceptions import RequestException
headers = {'User-Agent':'Mozilla/5.0 '}
def get_one_page(url):
try:
res = requests.get(url,headers = headers)
if res.status_code == 200:
return res.text
return None
except RequestException:
return None
二、构造 HTML 解析器
def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
items = re.findall(pattern,html)
for item in items:
yield{
'index': item[0],
'image': item[1],
'title': item[2],
'actor': item[3].strip()[3:],
'time': item[4].strip()[5:],
'score': item[5] + item[6]
}
注意事项:
三、构造数据存储器
def write_to_file(content):
with open ('result.txt', 'a',encoding='utf-8') as f:
f.write(json.dumps(content,ensure_ascii=False) + '\n')
f.close()
注意事项:
接下来就是构造主函数,初始化各个模块,传入入口 URL,按照运行流程执行上面三大模块:
def main(offset):
url = 'http://maoyan.com/board/4?offset=' + str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
if __name__ == '__main__':
p = Pool()
p.map(main,[i*10 for i in range(10)])
注意事项:
执行代码后,结果如下:
本文中介绍了基础爬虫架构主要的的三个模块(HTML 下载器、HTML 解析器、数据存储器),无论大型还是小型爬虫都不会脱离这三个模块,也希望大家通过这个小小的练习对整个爬虫有个清晰的认识,欢迎大家一起谈论学习交流。
《Python人工智能和全栈开发》2018年07月23日即将在北京开课,120天冲击Python年薪30万,改变速约~~~~
*声明:推送内容及图片来源于网络,部分内容会有所改动,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜。
- END -