首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python | 爬虫联招聘(进阶版)

上一篇文章中《Python爬虫抓取联招聘(基础版)》我们已经抓取了联招聘一些信息,但是那些对于找工作来说还是不够的,今天我们继续深入的抓取联招聘信息并分析,本文使用到的第三方库很多,涉及到的内容也很繁杂...运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 0、写在前面的话 本文是基于基础版上做的修改,如果没有阅读基础版...,请移步 Python爬虫抓取联招聘(基础版) 在基础版中,构造url时使用了urllib库的urlencode函数: url = 'https://sou.zhaopin.com/jobs/searchresult.ashx...匹配月薪 # 匹配所有符合条件的内容 items = re.findall(pattern, html) 2、求工资平均值 工资有两种形式xxxx-yyyy或者面议,此处第一种形式的平均值作为分析标准...words_stat = words_stat.reset_index().sort_values(by=["计数"],ascending=False) print(words_stat) # 以下是全部

3K31
您找到你想要的搜索结果了吗?
是的
没有找到

Python资源

class="next page-numbers"]') if next_page == []: xxx else: xxx 如果存在下一页,那么就交由另外一部分来处理,完一页的资源后...,若没有想要的资源,输入y (大小写都可以)就可以自动取下一页的资源内容了,如果这一页有想要的资源,输入N就可以退出,并输入资源ID后就可获得该资源的网盘链接了 当然,为了避免大小写的问题,我在获取了用户输入的东西后...,自动全部大写 confirm = input("是否取下一页内容(Y/N): ") if confirm.upper() == ("Y"): xxx 下面是一个改版的流程 版本...功能 备注 v1.0 获取资源名和链接 第一小步 v1.1 自动获取百度网盘链接 基本完成 v1.2 顺便获取网盘链接密码 功能实现 v2.1 更改了结构,用户可选择指定的资源而不是全盘,界面看起来更美观

1.7K10

爬虫联招聘的职位信息(基础)

简单联招聘的内容,之前在网上找关于这方面的代码,最后发现都不行,现在的招聘信息都是js加载,直接请求响应不到响应的内容,只能使用selenium,通过selenium加载,网页加载完成后返回...开始正文 先找到要的url,https://sou.zhaopin.com/?...前10页的数据,每页60条 第一步就是创建项目; scrapy startproject zhilian 打开该项目:(项目目录) 编写selenium中间件 class SeleniumSpiderMiddleware.../usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/9/30 11:08 # @Author : jia.zhao # @Desc...的时候还碰到一个问题,就是同一个url用浏览器访问和你用selenium调用浏览器去访问,完全是不同的页面,所以获取数据的xpath需要重新写 这是保存在TXT中的数据 mongodb中保存的数据

69120

Python资源-源码

re sys io sys和io主要是用来转字符串的,如果的结果是特殊符号或者是例如韩文这样的文字的话,爬虫是会报错的,得这么来一下让他默认输出的都是gb18030编码 import sys import...io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 这个东西比较有意思,不单可以在这里这么用,比如微信消息时也可以这么用...which_video(num,urllist): num = int(num)-1 turl=urllist[num] # 选择指定url 选择好了url后,就开始打开对应的url,然后进行内容...上一个def中,检测到了存在下一页的话,就return一个值,告诉程序存在下一页,得换个操作,其实和没有下一页的操作是一样的,就是多了询问和的功能而已 ......(ehtml,"html5lib") elif confirm.upper() == ("N"): return url_list #如果为N的话,直接进行资源的操作

1.1K10

Python|短视频

问题描述 python是一种非常好用的爬虫工具。对于大多数的爬虫小白来说,python是更加简洁,高效的代码。今天就用实际案例讲解如何动态的网站视频。...环境配置:python3:爬虫库request、json模块,Pycharm 爬虫的一般思路:分析目标网页,确定url—发送请求,获取响应—解析数据—保存数据 目标:方便看视频 解决方案 第一步...第三步:解析数据--json模块:把json字符串转换为python可交互的数据类型 转换数据:利用json进行转换,json是python的内置模块,json可以把json字符串转换为python可交互的数据类型...with open('video\\' + video_title,'wb') as f: f.write(video_data) print('完成') 结语 动态网页的与静态网页的是非常相似的

1.6K40

Python|书籍信息

1.前言 爬虫可以有助于快速地从网页中获取想要的信息,从而大大减少工作量今天小编就用实际案例为大家讲解如何网站的一些书籍信息。...2.环境配置 Pycharm,python3,爬虫库request,re模块。 3.目标 爬虫的一般思路:分析目标网页,确定urlà发送请求,获取响应à解析数据à保存数据。...分析目标:要的目标是所有的书籍信息,但书籍信息不只是存在当前网页,需要找到所有有书籍信息的网页,并依次去。 找到头部信息:通过浏览器的检查获取到需要的头部信息。...整理思路:先在当前网页找到所有的存放书籍信息的网页,依次网页,再从中获得每本书的具体网页,最后取到需要的信息。 具体步骤如下: ? ? ? ? ? ? 第二步,发送请求,获取响应的数据。...截取数据:通过re模块,来截取数据,re模块是python自带的模块,具体的用法,可以上python官网查看。 ? 第四步:保存数据。 可以通过docx模块,创建一个文档并保存。 如下图: ?

1.3K20

Python《赘婿》弹幕

他也是元标记语言,即定义了用于定义其他领域有关的、语义的、结构化的标记语言的句法语言 Python对XML的解析 常见的XML接口主要有两种DOM和SAX,这两种接口处理XML的方式不同,当然使用的场景也不相同...SAX(simple API for XML) Python标准库包括SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个事件并调用用户定义的回调函数来处理XML文件。...Python解析XML示例 from xml.dom.minidom import parse import xml.dom.minidom # 使用minidom解析器打开XML文档 DOMTree...今天我们的实战内容就是把观众发送的弹幕抓取下来,并将我在过程中遇到的内容分享给大家。 分析网页 一般来说,视屏的弹幕是不可能出现在网页源码中的,那么初步判断是通过异步加载弹幕数据。...bullet/54/00/7973227714515400_300_10.z 数据解码 当你把上面的URL复制到浏览器中,你会发现直接下载一个以.z为后缀的压缩包,windows不能直接打开,只能先通过Python

52350
领券