首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

又到了买票的季节,学完Python这招你还会为车票而感到苦恼吗?

一年一度的春运过段时间就到到来,今天小编给大家带来如何使用Python攻克12306最后一道防线,实现自动抢票!

最近有好几个同学问我12306自动抢票能否实现,在这之前我分享过直播教学,不知道有多少人看见,今天文本实操,带大家攻克12306最后一道防线,实现自动抢票。

我们要做12306抢票而官方又没有提供相应的接口(也不可能提供),那么我们就只能通过自己寻找12306的数据包和买票流程来模拟浏览器行为实现自动化操作了,说直白一点就是爬虫,接下来进入正题,前方高能,请系好安全带~~

首先在买票前我们需要先确认是否有票,那么进行正常的查票,打开12306查票网站https://kyfw.12306.cn/otn/leftTicket/init 输入出发地和目的地进行搜索。

那么一般在看到这个页面的时候我们能想到的获取车次及相关信息的方式是什么呢?对于零基础的同学而言第一时间就会想到在源代码里面找,但这里事实上源代码里面根本没有相关内容,因为该请求是采用的js中ajax异步请求的方式动态加载的,并不包含在源代码里面,所以我们只能够通过抓包的方式来查看浏览器与服务器的数据交互情况,我用的是谷歌浏览器所以打开开发者工具的快捷键是F12。

注意选中红线框出来的那一个选项,此时只要是浏览器和服务器发生数据交互都会在下面列表框显示出来,我们再次点击查询按钮。

结果发现列表当中有了两个请求,也就是说我们点击查询按钮以后浏览器向服务器发起了两次请求,那么我们来通过返回值分析下那个请求才是真正获取到车次相关数据的请求,以便我们用Python来模拟浏览器操作。

第一次请求:

很明显第一次请求返回的值没有我们需要的车次信息。

第二次请求:

第二次请求里面看到了很多数据,虽然我们暂时还没看到车次信息,但是我们发现它有个特性,就是有个列表的值里面有6个元素,而刚好我们搜索出来的从长沙到成都的车辆也是6条数据,所以这两者肯定有一定关系,那么我们先用Python来获取到这些数据再进行下一步分析:

# -*- coding: utf-8 -*-importurllib2 importsslssl._create_default_https_context = ssl._create_unverified_context defgetList():req = urllib2.Request('https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2017-07-10&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=CSQ&purpose_codes=ADULT') req.add_header( 'User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36') html = urllib2.urlopen(req).read() returnhtml printgetList()

首先定义一个函数来获取车次列表信息:

从抓包数据中获取到该请求的url:https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2017-07-10&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=CSQ&purpose_codes=ADULT

为了防止被12306检测到屏蔽我们的请求那么我们可以简单的增加个头信息来模拟浏览器的请求。

req. add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')

其中的:

ssl. _create _default_https _context = ssl. _create _unverified _context

是因为12306采用的是https协议,而ssl证书是它自己做的并没有得到浏览器的认可,所以Python默认是不会请求不受信任的证书的网站的,我们可以通过这行代码来关闭掉证书的验证

那么我们先来看看能不能正常获取到我们想要的信息 :

事实证明我们的操作没有问题,接下来先拿到包含有6条数据的这个列表再说。

返回的数据是json格式,但是Python标准数据类型中没有json这个类型,所以对于Python而言它就是个字符串,如果要非常方便的操作这个json我们就可以借助Python中的json这个包来把json这个字符串变成dict类型,然后通过dict的键值对操作方法把列表取出来并进行返回。

# -*- coding: utf-8 -*-importurllib2 importssl importjsonssl._create_default_https_context = ssl._create_unverified_contextdef getList(): req = urllib2. Request('https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date= 2017- 07-10&leftTicketDTO.from_station= CDW&leftTicketDTO.to_station= CSQ&purpose_codes=ADULT') req.add_header(' User- Agent',' Mozilla/ 5. 0( WindowsNT10. 0; Win64; x64)AppleWebKit/ 537. 36( KHTML, like Gecko) Chrome/ 59. 0. 3071. 115Safari/ 537. 36') html = urllib2.urlopen(req).read() dict = json.loads(html) result= dict['data'][' result'] returnresult

最终返回的是一个list数据,我们先把这个数据for出来再看看每一条数据都有些什么东西:

foriingetList(): print i

for出来之后我们先来看看第一条数据是什么样的:

其实我们稍微留一下就会发现里面有包含G1318,07:54,18:54,无这样的车次信息的,只不过看起来比较乱,但是他们都有一个特点,每个数据都是由|这个符号分开的,所以我们可以通过用|分割看看能发现什么呢?

foriingetList(): forn ini. split('|'): print n break

可以看到所有的值都打印出来了,我们再在前面加上一个序号就能清楚到看到每个序号所对应的值到底是什么了,比如有辆火车硬座还剩3张票,软卧还剩8张票,那我们就查看哪个序号对应的值是3哪个序号对应的值是8就搞清楚了哪个序号是代表什么座次或者其他参数了。

c = 0fori ingetList(): forn ini.split( '|'): print'[%s] %s'%(c,n) c += 1c = 0break#索引3=车次#索引8=出发时间#索引9=到达时间

到了这里不知道同学们有没有发现一个问题,就是我用的这个函数只能够获取到从长沙到成都的数据,而别人不一定是买这个方向的火车,所以我们还得搞清楚请求的url当中的出发站和到达站的值是怎么来的。

https:/ /kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date= 2017- 07-10&leftTicketDTO.from_station= CDW&leftTicketDTO.to_station= CSQ&purpose_codes=ADULT

先找到出发站和到达站的参数分别是:

leftTicketDTO.from_station= CDWleftTicketDTO.to_station=CSQ

然而通过查找和分析我并没有发现这两个参数有规律,那么也就是说这两个值是在之前的请求里面就已经获取到了的,通过检查网页源代码没有找到,那么又只能通过抓包的方式来找。

在抓包过程中找到了一个包的返回值是附带有各城市的代号的,url如下:

https:/ /kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9018

那么我们把这里面的城市数据复制出来单独新建一个cons.py的文件保存起来

然后我们通过把参数做成通过输入出发城市和到达城市就可以直接在这个数据里面匹配到相应的城市代号,代码如下:

station = {} fori incons.station_names. split( '@'): ifi: tmp = i. split( '|') station[tmp[ 1]] = tmp[ 2] #print stationtrain_date = raw_input( '请输入出发时间')from_station = station[raw_input( '请输入出发城市')]to_station = station[raw_input( '请输入到达城市')]

到这里就已经能够通过输入时间,城市获取相应的车次信息了 。

那么我们再进行一些简单的判断,就能实现检查相应的时间,地点,车次是否有余票了。

同时再结合登录,购票等流程,通过自动判断是否有票,如果无票就继续刷新,直到有票之后自动登录下单后通过短信或者电话等方式全自动联系购票人手机就可以了,如下图:

Python的文件处理是我学过这么多语言里面最简单,易用的,无论是c,c++,java,perl都没有Python这么简单,而且还有神一样的with用法,简直就是懒人专用,用起来简单上手很快,而且功能还非常强大.

后面我会讲Python的函数和模块,我们来讲一讲文件的使用,Python对数据的处理分两种一种是本地文件的处理,另外一种是通过网络数据处理(也就是爬虫相关的).而本地的数据处理,主要是通过文件的读和写完成~~

我们先想一想平时对文件处理一般遇到哪些问题:

如何读取一个文件的内容,然后处理,最后写到一个新的文件

如何更改一个文件夹下的某一些文件名

这个两个是非常常见的问题,如何处理呢,python十几行简单的代码就能搞定,那我们快来学习一下吧:

Python的文件处理简单来说分以下几点:

文件的读写和关闭

文件的模式

文件的读取位置

1.文件的读写和关闭

python中要想获得文件里的内容,先要打开文件,然后才能读和写.而且写完之后一定要记得关闭.python中对文件的打开是通过open函数来获得一个句柄,

获得读的句柄f,就可以用f.read()进行读入

获得写的句柄f之后,就可以f.write()进行写入

当你文件处理完毕之后,要关闭文件.

(也许有同学问为啥要关闭文件啊,因为若不正常关闭,缓冲在内存中的数据就不能真正写入到文件中,可能造成数据丢失)

1)文件的打开

file_obj=open(filename,mode='r',buffering=-1)

#一共有3个参数,第一个是强制参数,后面两个是可选的

#mode可以是读,写或者追加,一般默认是读文件

#buffering主要是设置缓存区,一般我们都是用-1表示用系统的默认缓冲区,若写100,表示缓冲区为100

2)文件的读取

f=open(r'somefile.txt')

f.readline()#表示读文件的一行

f.readlines()#表示把文件从头到尾都读出来,并保存为一个列表

3)文件的写入

f=open(r'somefile.txt','w')

f.write()#表示把字符串写入

f.writelines()#表示把一个列表写入

4)文件的关闭

使用文件应该牢记关闭#重要的事情说3遍我已经说了3遍了

普通的关闭方法:

f=open(r'somefile.txt')

...xxx#do something

f.close()

懒人专用方法

with open(r'somefile.txt') as f:

f.readlines()

强烈推荐用with方法,这是pythonic里面非常推荐的一种方法,因为它会自动帮你关闭文件。你只要专注对文件的处理就可以了,是不是非常贴心~~

2.文件的模式

上面只列举了python的读和写,那其他的模式怎么办呢~~不要急,python只需要改变一下open里面的模式参数就可以.

3.文件的读取位置

有的时候我们只想读文件的一部分的内容,或者我们需要从文件的某个位置读数据,应该怎么操作呢,用seek()函数

file_obj.seek(offset,whence=0)

#seek主要是在文件中移动指针,从whence(0表示文件头,1表示当前位置,2表示文件尾)偏移offset个字节

====123.txt===

1)从头读3个字符

f=open('123.txt')

f.seek(0,0)

print f.read(3)

f.close()

2)从尾读3个字符

f=open('123.txt')

f.seek(-3,2)#2表示从文件指针指向尾巴,-3表示向前移动3个字节

print f.read(3)#读3个字节

f.close()

下面我们通过2个小例子讲一下

假如你你有个叫Test目录,它的结构如下:

里面有2个文件,一个txt文件(里面有4行内容),一个新建的demo.py

|----abc1109.txt---

Google

Micrisoft

BaiDu

Facebook

|----demo.py------

例子1:把abc1109.txt里面的内容读出来,写到一个新的文件,按照下面的格式:

|-----Output------

1: Google

2: Micrisoft

3: BaiDu

4: Facebook

先写一个粗糙的解法

接着我们把上面的代码整理,重构一下

上面的代码重构了一下是不是看的清晰一点,而且用了with的用法简洁很多,是不是很爽,重构其实是非常重要的技巧.其实这个例子有一点小问题(就是没有对文件加异常保护,因为异常后面再讲,所以暂时先不写).

例子2:把Test目录下面的2个txt文件改名字:

原来的:

|----abc1109.txt---------

|----new_abc1109.txt---

|----demo.py--------------

通过引入os模块,把读出来的文件名用字符串的内置函数translate处理一下,就ok了,看源码如下:

>> 改过名字后

|----abc.txt---------

|----new_abc.txt---

|----demo.py-------

好了Python的文件快速入门就讲到这里啦,希望能给初学者一些启发,若有什么不懂的,也可以留言跟我探讨交流.

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180108A0ZYSM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券