今天小麦苗给大家分享的是利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)。
利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)
原Python爬虫代码:
import requests import re url = 'http://blog.itpub.net/26736162/list/%d/' pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">(.*?)</p></a>') #pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">') #ret=pattern.findall(data) #print(''.join(ret)) def write2file(items): with open('./download/lhrbest_itpub_link_title.txt','a',encoding='utf-8') as fp: for item in items: item=item[::-1] s=':'.join(item) # print('----',len(items)) fp.write(s+'\n') # fp.write('---------------------------------------------------------------\n') pass headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'} def loadHtml(page): if page >= 1: for p in range(1,page+1): url_itpub = url%(p) print(url_itpub) response = requests.get(url=url_itpub,headers = headers) response.encoding = 'utf-8' content = response.text # print(content) # Ctrl + Alt + V:提取变量 items = pattern.findall(content) # print(items) write2file(items) pass else: print('请输入数字!!!') pass if __name__ == '__main__': page = int(input('请输入需要爬取多少页:')) loadHtml(page)
代码很简单,后续再优化处理。本文第一篇,因为后续还需要将所有的博客保存成html格式到本地。
About Me:小麦苗
● 本文作者:小麦苗,只专注于数据库的技术,更注重技术的运用
● 作者博客地址:http://blog.itpub.net/26736162/abstract/1/
● 本系列题目来源于作者的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解
● 版权所有,欢迎分享本文,转载请保留出处
● 题目解答若有不当之处,还望各位朋友批评指正,共同进步
本文分享自微信公众号 - DB宝(xiaomaimiaolhr)
原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。
原始发表时间:2018-12-28
本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。
我来说两句