【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)

今天小麦苗给大家分享的是利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)。

利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)

原Python爬虫代码:

import requests
import re
url = 'http://blog.itpub.net/26736162/list/%d/'
pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">(.*?)</p></a>')
#pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">')
#ret=pattern.findall(data)
#print(''.join(ret))
def write2file(items):
    with open('./download/lhrbest_itpub_link_title.txt','a',encoding='utf-8') as fp:
        for item in items:
            item=item[::-1]
            s=':'.join(item)
            # print('----',len(items))
            fp.write(s+'\n')
            # fp.write('---------------------------------------------------------------\n')
    pass
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'}
def loadHtml(page):
    if page >= 1:
        for p in range(1,page+1):
            url_itpub = url%(p)
            print(url_itpub)
            response = requests.get(url=url_itpub,headers = headers)
            response.encoding = 'utf-8'
            content = response.text
            # print(content)
            # Ctrl + Alt + V:提取变量
            items = pattern.findall(content)
            # print(items)
            write2file(items)
        pass
    else:
        print('请输入数字!!!')
    pass
if __name__ == '__main__':
    page = int(input('请输入需要爬取多少页:'))
    loadHtml(page)

代码很简单,后续再优化处理。本文第一篇,因为后续还需要将所有的博客保存成html格式到本地。

About Me:小麦苗

● 本文作者:小麦苗,只专注于数据库的技术,更注重技术的运用

● 作者博客地址:http://blog.itpub.net/26736162/abstract/1/

● 本系列题目来源于作者的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解

● 版权所有,欢迎分享本文,转载请保留出处

● 题目解答若有不当之处,还望各位朋友批评指正,共同进步

本文分享自微信公众号 - DB宝(xiaomaimiaolhr)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券