前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)

【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)

作者头像
AiDBA宝典
发布2019-09-30 16:50:24
7200
发布2019-09-30 16:50:24
举报
文章被收录于专栏:小麦苗的DB宝专栏

今天小麦苗给大家分享的是利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)。

利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)

原Python爬虫代码:

代码语言:javascript
复制
import requests
import re
url = 'http://blog.itpub.net/26736162/list/%d/'
pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">(.*?)</p></a>')
#pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">')
#ret=pattern.findall(data)
#print(''.join(ret))
def write2file(items):
    with open('./download/lhrbest_itpub_link_title.txt','a',encoding='utf-8') as fp:
        for item in items:
            item=item[::-1]
            s=':'.join(item)
            # print('----',len(items))
            fp.write(s+'\n')
            # fp.write('---------------------------------------------------------------\n')
    pass
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'}
def loadHtml(page):
    if page >= 1:
        for p in range(1,page+1):
            url_itpub = url%(p)
            print(url_itpub)
            response = requests.get(url=url_itpub,headers = headers)
            response.encoding = 'utf-8'
            content = response.text
            # print(content)
            # Ctrl + Alt + V:提取变量
            items = pattern.findall(content)
            # print(items)
            write2file(items)
        pass
    else:
        print('请输入数字!!!')
    pass
if __name__ == '__main__':
    page = int(input('请输入需要爬取多少页:'))
    loadHtml(page)

代码很简单,后续再优化处理。本文第一篇,因为后续还需要将所有的博客保存成html格式到本地。

About Me:小麦苗

● 本文作者:小麦苗,只专注于数据库的技术,更注重技术的运用

● 作者博客地址:http://blog.itpub.net/26736162/abstract/1/

● 本系列题目来源于作者的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解

● 版权所有,欢迎分享本文,转载请保留出处

● 题目解答若有不当之处,还望各位朋友批评指正,共同进步

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DB宝 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档