python爬虫抓取内涵段子

#!/usr/bin/env python
#coding:utf-8
import requests,io,time
from bs4 import BeautifulSoup
def neihanjoke():
    headers = {
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding':'gzip, deflate',
        'Accept-Language':'zh-CN,zh;q=0.9',
        'Cookie':'tt_webid=6536425014367225358; uuid="w:1057f146c0254dafbd487a6da58210b7"; _ga=GA1.2.64952905.1521880043; _gid=GA1.2.1818828277.1521880043; csrftoken=111d911d1b2b2a61b5cad8282ee5b16e; _gat=1',
        'Host':'neihanshequ.com',
        'Referer':'https://www.baidu.com/link?url=DP5I6qLhobaPUAJ321iP0PzTkPBvbUE0-YdK4x6H01Wuq_PuPpwErjcv4dICWag3&wd=&eqid=82195f930001ef0c000000035ab61073',
        'Upgrade-Insecure-Requests':'1',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36',
    }
    s = requests.session()
    s.keep_alive = False
    respone = requests.get('http://neihanshequ.com/',headers=headers)
    soup = BeautifulSoup(respone.text,"html.parser")
    jokedct = {}
    for joke in soup.find_all('div',class_='detail-wrapper'):
        value =  u'发布时间:'+ joke.find_all('span')[1]['title'] +'   '+ u'段子内容:'+joke.p.string
        jokedct[joke.span.text] = value
    f = io.open('neihanjok.txt', 'a',encoding='utf-8')
    for joke in jokedct:
        joke2 = u"用户: %s   %s  \n" %(joke,jokedct[joke])
        f.write(joke2)
    f.close()
if __name__ == '__main__':
    f = open("neihanjok.txt")
    lines =  len(f.readlines())
    while lines < 52113.14:
        f = open("neihanjok.txt")
        lines = len(f.readlines())
        neihanjoke()
        time.sleep(3)

原文发布于微信公众号 - 编程坑太多(idig88)

原文发表时间:2018-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Jerry的SAP技术分享

如何用JavaScript判断前端应用运行环境(移动平台还是桌面环境)

我们部署在某些云平台或者Web服务器上的前端应用,既可以用PC端浏览器访问,也可以用手机上的浏览器访问。

1033
来自专栏python学习之旅

Python django框架笔记(四):数据分页和CSRF跨站点请求伪造

1815
来自专栏菩提树下的杨过

setInterval与clearInterval使用示例

setInterval是一个很有用的js函数,可以用来重复执行某些功能,利用这个我们可以实现一些很有趣的功能,比如: 不刷新页面的情况下,"实时"获取其它会员给...

2095
来自专栏GIS讲堂

调用天地图API实现关键词搜索

调用天地图APILocalSearch接口,实现关键词搜索,调用方式为:localsearch.search(keywod)。

2973
来自专栏Java帮帮-微信公众号-技术文章全总结

SpringBoot使用pageHelper分页插件【面试+工作】

可能有些不太详细,具体可以参考插件作者的文档哦。 https://github.com/pagehelper/Mybatis-PageHelper/blob/...

2202
来自专栏小狼的世界

Virtualbox镜像文件克隆问题

VBoxManage clonehd centos-1.vdi centos-2.vdi

1114
来自专栏python爬虫日记

python2.7下urllib2的connection自动close的原因及解决办法

前文介绍了urllib2的常见问题的解决方案,今天来特别讨论下urllib2中短连接问题。

1334
来自专栏一个会写诗的程序员的博客

《Springboot极简教程》问题解决:Idea解决Gradle库依赖冲突问题:Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on

参考: https://docs.gradle.org/current/userguide/userguide_single.html#sec:listing...

873
来自专栏Python

浏览器User-Agent大全

HttpHeader之User-Agent UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是...

4192
来自专栏有趣的django

21天打造分布式爬虫-Scrapy框架(七)

pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl

1001

扫码关注云+社区