前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python实现简单爬虫

python实现简单爬虫

作者头像
申霖
发布2019-12-27 18:12:43
4660
发布2019-12-27 18:12:43
举报
文章被收录于专栏:小白程序猿

前段时间将python的基础写在了头条号里面,最近一段时间在研究前端知识和laravel框架,把python的代码放了,今天不忙写了一个简单的爬虫。下面是代码(基于3.7版本):

7b91894c40e5b6fd2c422e8312f33a68.jpg
7b91894c40e5b6fd2c422e8312f33a68.jpg
代码语言:javascript
复制
# -*- coding: UTF-8 -*-
import requests
from bs4 import BeautifulSoup
import pymysql
# 初始化方法
def start_method():
    get_url = set_path()
    print(get_url)


# 基础信息设置,拼合 url
def set_path():
    # 基础url链接
    base_url = 'http://dl.sll.cn/major/'
    # 定义链接组
    url_array = []
    # 设置起始点
    start_num = 1
    # 设置终点
    end_num = 10000
    # 循环生成url链接
    for i in range(start_num, end_num):
        # 拼接完整url
        url = base_url + str(i) + '.html'
        url_array.append(url)
    return url_array
    # print(url_array)
# 获取 html

# 获取内容并写入库
def start():
    # 获取拼合后的url链接
    url_array = set_path()
    for url in url_array:
        # 获取链接的信息(状态码、url、头信息、cookie、源码等)
        content = requests.get(url)
        # 设置编码格式
        content.coding = 'UTF-8'
        # 以文本形式获取源码
        content_text = content.text
        # 利用解析器进行解析操作
        article = BeautifulSoup(content_text)
        # 标题
        title = article.title.string
        # 写入数据库
        mysql_connect(title, url)


# 连接数据库
def mysql_connect(title, url):
    con = pymysql.connect(
            # 数据库地址
            host='127.0.0.1',
            # 端口
            port=3306,
            # 用户名
            user='root',
            # 密码
            password='shenlin',
            # 数据库名称
            database='school',
            # 编码设置
            charset='utf8'
        )
    # 得到连接光标
    connect = con.cursor()
    # 书写 SQL 语句
    sql = 'INSERT INTO test(title, url) VALUES("%s","%s")' % (title, url)
    # 执行SQL,并获取结果
    res = connect.execute(sql)
    # 关闭数据库连接
    connect.close()
    con.close()

    if res:
        print(url + '------> 写入成功')
    else:
        print(url + '------> 写入失败')


# 初始化调用方法
start()
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档