专栏首页编程坑太多Python爬取一个网站

Python爬取一个网站

# coding:utf-8
import requests
from bs4 import BeautifulSoup
import json
import time
import datetime
import pymysql
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 获取文章内容方法
def getartinfo( url ):
    page = requests.get(url).content
    soup = BeautifulSoup(page,'lxml')
    res={}
    res['curr'] = soup.find('div',class_="comilla-cerrar").string.strip()
    res['title'] = soup.find('h2',class_="articulo-titulo").string.strip()
    res['auchor'] = soup.find('p',class_="articulo-autor").string.strip()
    res['contents'] =soup.find('div',class_="articulo-contenido")
    res['add_time'] = (int)(time.time())
    return res
# 获取问答内容方法
def getqueinfo( url ):
    page = requests.get(url).content
    soup = BeautifulSoup(page,'lxml')
    res={}
    res['title'] = soup.find('h4').string.strip()
    res['curr'] = soup.find('div',class_="cuestion-contenido").string.strip()
    res['auchor'] = soup.find('p',class_="cuestion-editor").string.strip()
    res['contents'] =soup.find_all('div',class_="cuestion-contenido")[1]
    res['add_time'] = (int)(time.time())
    return res
# 抓取“一个每日文章和问答”
url = "http://wufazhuce.com/"
page = requests.get(url).content
soup = BeautifulSoup(page,'lxml')
# 每日文章
art_list = soup.find_all("p", class_="one-articulo-titulo")
art_url =  art_list[0].a.get('href')
artinfo = getartinfo(art_url)
# 每日问答
que_list = soup.find_all("p", class_="one-cuestion-titulo")
que_url =  que_list[0].a.get('href')
queinfo = getqueinfo(que_url)
que_list = list(queinfo.values())
conn = pymysql.connect(host='localhost',port=3306,user='root',password='root',db='one',charset='utf8')
cursor = conn.cursor()
cursor.execute("INSERT INTO day_art(title,curr,author,contents,add_time)VALUES('{0}','{1}','{2}','{3}','{4}');".format(artinfo['title'],artinfo['curr'],artinfo['auchor'],artinfo['contents'],artinfo['add_time']))
cursor.execute("INSERT INTO day_art(title,curr,author,contents,add_time)VALUES('{0}','{1}','{2}','{3}','{4}');".format(queinfo['title'],queinfo['curr'],queinfo['auchor'],queinfo['contents'],queinfo['add_time']))
conn.commit()
cursor.close()
conn.close()
print 'ok'   

本文分享自微信公众号 - 编程坑太多(idig88),作者:看更多☞

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 讲讲身边程序员,在面试时都中过哪些套路?

    IT故事会
  • 讲讲身边程序员,在面试时都中过哪些套路?

    IT故事会
  • 『中级篇』windows下vagrant 通过SecureCRT连接centos7(33)

    PS:我入了这个坑,找了好久才找到解决方案,一开始用SecureCRT 老提示public key,不知道该怎么办,查看了目录了解到了vagrant ssh的时...

    IT故事会
  • python使用urllib2通过htt

    py3study
  • MySQL手工暴库语句

    本期给大家整理了一下手工的爆库语句,虽然没有sqlmap那么好,但是在特定的情况下还是很有用,大家可以收藏作为一个笔记使用。

    网e渗透安全部
  • 经典算法巡礼(五) -- 排序之归并排序

    归并排序是创建在归并操作上的一种有效排序算法。所谓归并操作,指的是将两个已经排序的序列合并成一个序列的操作。归并排序是分治思想的典型示范。

    jiezhu
  • 金蝶k3wise 核算项目、辅助资料

    landv
  • Linux\Mac 递归移除某文件夹下所有文件(不包含文件夹)的执行权限命令

    今天别人给了我传了一个文件夹,里面是一个项目代码。我查看了一下,发现所有文件都是有执行权限的。这让我很不爽,于是我将所有文件(不包含文件夹)的执行权限全部去掉。...

    FungLeo
  • 表单注入——sqli-labs第11~16关

    在表单里分别输入XXXX' or 1# , xxxx" or 1#。然后按下submit,观察反应

    宸寰客
  • python 上传图片到简书

    https://gist.github.com/jiaxianhua/90d96f10074034c10145b3ca37dbfef0

    iOSDevLog

扫码关注云+社区

领取腾讯云代金券