前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬取一个网站

Python爬取一个网站

作者头像
IT架构圈
发布2018-06-01 10:46:52
4200
发布2018-06-01 10:46:52
举报
文章被收录于专栏:IT架构圈IT架构圈
代码语言:javascript
复制
# coding:utf-8
import requests
from bs4 import BeautifulSoup
import json
import time
import datetime
import pymysql
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 获取文章内容方法
def getartinfo( url ):
    page = requests.get(url).content
    soup = BeautifulSoup(page,'lxml')
    res={}
    res['curr'] = soup.find('div',class_="comilla-cerrar").string.strip()
    res['title'] = soup.find('h2',class_="articulo-titulo").string.strip()
    res['auchor'] = soup.find('p',class_="articulo-autor").string.strip()
    res['contents'] =soup.find('div',class_="articulo-contenido")
    res['add_time'] = (int)(time.time())
    return res
# 获取问答内容方法
def getqueinfo( url ):
    page = requests.get(url).content
    soup = BeautifulSoup(page,'lxml')
    res={}
    res['title'] = soup.find('h4').string.strip()
    res['curr'] = soup.find('div',class_="cuestion-contenido").string.strip()
    res['auchor'] = soup.find('p',class_="cuestion-editor").string.strip()
    res['contents'] =soup.find_all('div',class_="cuestion-contenido")[1]
    res['add_time'] = (int)(time.time())
    return res
# 抓取“一个每日文章和问答”
url = "http://wufazhuce.com/"
page = requests.get(url).content
soup = BeautifulSoup(page,'lxml')
# 每日文章
art_list = soup.find_all("p", class_="one-articulo-titulo")
art_url =  art_list[0].a.get('href')
artinfo = getartinfo(art_url)
# 每日问答
que_list = soup.find_all("p", class_="one-cuestion-titulo")
que_url =  que_list[0].a.get('href')
queinfo = getqueinfo(que_url)
que_list = list(queinfo.values())
conn = pymysql.connect(host='localhost',port=3306,user='root',password='root',db='one',charset='utf8')
cursor = conn.cursor()
cursor.execute("INSERT INTO day_art(title,curr,author,contents,add_time)VALUES('{0}','{1}','{2}','{3}','{4}');".format(artinfo['title'],artinfo['curr'],artinfo['auchor'],artinfo['contents'],artinfo['add_time']))
cursor.execute("INSERT INTO day_art(title,curr,author,contents,add_time)VALUES('{0}','{1}','{2}','{3}','{4}');".format(queinfo['title'],queinfo['curr'],queinfo['auchor'],queinfo['contents'],queinfo['add_time']))
conn.commit()
cursor.close()
conn.close()
print 'ok'   
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 编程坑太多 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档