专栏首页python学习指南Python爬虫(十五)_案例:使用bs4的爬虫

Python爬虫(十五)_案例:使用bs4的爬虫

本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南

案例:使用BeautifulSoup的爬虫

我们已腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a

使用BeautifulSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、时间、以及每个职位详情的点击链接存储出来。

#-*- coding:utf-8 -*-

from bs4 import BeautifulSoup

import urllib2
import urllib
import json   #使用json格式存储

def tencent():
    url = "http://hr.tencent.com/"

    request = urllib2.Request(url+"position.php?&start=10#a")
    response = urllib2.urlopen(request)

    resHtml = response.read()

    output = open('tencent.json', 'w')

    html = BeautifulSoup(resHtml, 'lxml')


    #创建CSS选择器
    result = html.select('tr[class="even"]')
    result2 = html.select('tr[class="odd"]')
    result += result2

    print(result)
    items = []
    for site in result:
        item = {}

        name = site.select('td a')[0].get_text()
        dataLink = site.select('td a')[0].attrs['href']
        catalog = site.select('td')[1].get_text()
        recruitNumber = site.select('td')[2].get_text()
        workLocation = site.select('td')[3].get_text()
        publishTime = site.select('td')[4].get_text()

        item['name'] = name
        item['datailLink'] = url + dataLink
        item['catalog'] = catalog
        item['recruitNumber'] = recruitNumber
        item['publishTime'] = publishTime

        items.append(item)
    #禁用ascii编码,按utf-8编码
    line = json.dumps(items, ensure_ascii = False)

    output.write(line.encode('utf-8'))

    output.close()


if __name__ == '__main__':
    tencent()

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python爬虫(十一)_案例:使用正则表达式的爬虫

    本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬...

    用户1174963
  • Java面试题问与答——编译时与运行时

    在开发和设计的时候,我们需要考虑编译时,运行时以及构建时这三个概念。理解这几个概念可以更好地帮助你去了解一些基本的原理。下面是初学者晋级中级水平需要知道的一些问...

    用户1174963
  • python生成式

    本篇将介绍Python的列表生成式,更多内容请参考:Python列表生成式 列表生成式即List Comprehensions,是Python内置的非常简...

    用户1174963
  • 【7-9 有重复的数据I (20 分)】【此题卡输入,需要自己写个输入挂】

    _DIY
  • RxHttp 一条链发送请求之强大的数据解析功能(二)

    数据解析器Parser在RxHttp担任着一个很重要的角色,它的作用的将Http返回的数据,解析成我们想要的任意对象,可以用Json、DOM等任意数据解析方式。...

    Android技术干货分享
  • Java反序列化利用工具 -- Java Deserialization Exp Tools

    Java反序列化漏洞已经被曝出一段时间了,本人参考了网上大神的放出来的工具,将Jboss、Websphere和weblogic的反序列化漏洞的利用集成到了一起...

    奶糖味的代言
  • 上传你的大脑:会有那么一天吗?

    大数据文摘
  • 【Rust日报】 2019-07-19 微软:我们需要更安全的系统编程语言

    libre graphics meeting 是一个图形相关的会议,本次会议 Colin Rofls 和 Raph Levien 一起分享了他们使用 rust ...

    MikeLoveRust
  • java代码调用shell脚本

    神秘的寇先森
  • BZOJ 2257: [Jsoi2009]瓶子和燃料【数论:裴蜀定理】

    2257: [Jsoi2009]瓶子和燃料 Time Limit: 10 Sec  Memory Limit: 128 MB Submit: 1326  Sol...

    Angel_Kitty

扫码关注云+社区

领取腾讯云代金券