python3百度指数抓取

分类:python

作者:TTyb文章发表于 2016-11-12

百度指数抓取,再用图像识别得到指数前言:

土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字:

哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福

安装的库很多:

谷歌图像识别tesseract-ocr

pip3 install pillow

pip3 install pyocr

selenium2.45

Chrome47.0.2526.106 m or Firebox32.0.1

chromedriver.exe

图像识别验证码请参考我的博客:

python图像识别–验证码

selenium用法请参考我的博客:

python之selenium

进入百度指数需要登陆,登陆的账号密码写在文本account里面:

万能登陆代码如下:

登陆的页面:

登陆过后需要打开新的窗口,也就是打开百度指数,并且切换窗口,在selenium用:

清空输入框,构造点击天数:

天数也就是这里:

找到图形框:

图形框就是:

根据坐标点的不同构造偏移量:

选取7天的坐标来观察:

第一个点的横坐标为1031.66666

第二个点的横坐标为1234

所以7天两个坐标之间的差为:202.33,其他的天数类似

用selenium库来模拟鼠标滑动悬浮:

但是这样子确定的点指出是在这个位置:

也就是矩形的左上角,这里是不会加载js显示弹出框的,所以要给横坐标+1:

写个按照天数的循环,让横坐标累加:

鼠标横移时会弹出框,在网址里面找到这个框:

selenium自动识别之…:

并且确定这个框的大小位置:

截取的图形为:

下面的思路就是:

将整个屏幕截图下来

打开截图用上面得到的这个坐标rangle进行裁剪

但是最后裁剪出来的是上面的那个黑框,我想要的效果是:

本次更新加入了对于关键词长度的判断,能够自动识别关键词长度而进行截取:

找到位置:

后面的完整代码是:

但是后面发现裁剪的图片太小,识别精度太低,所以需要对图片进行扩大:

原图大小请右键->属性->详细信息查看,我的是长73像素,宽29像素

最后就是图像识别

最后效果图:

https://github.com/TTyb

本文来自企鹅号 - TTyb媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WOLFRAM

可视化:标签、缩放和排除

21940
来自专栏小巫技术博客

A008-drawable资源

关于drawable资源笔者之前有写过两篇文章: Android-自定义图像资源的使用(1) Android-自定义图像资源的使用(2) 这里笔者就不做过多的赘...

8520
来自专栏编程语言

Python:pygame的初步使用(pygame.draw)(二)

11220
来自专栏我是攻城师

关于opencv图片颜色不能正常在matplotlib中显示的问题

opencv默认的彩色图片的加载方式是按照BGR加载的,直接用opencv的函数展示是没有问题的,但是有时候我们想把多张图片放在一起展示,这时候用matplot...

10610
来自专栏ATYUN订阅号

【学术】Juggernaut:网络浏览器中的神经网络

Juggernau是一个用Rust编写的实验性神经网络。它是一个使用梯度下降来拟合模型并训练网络的前馈神经网络。Juggernaut使我们能够构建网络应用程序,...

37080
来自专栏瓜大三哥

形态学滤波(五)

形态学滤波(五) 之一维形态学腐蚀/膨胀子模块设计 对于图像处理而言,是纵向和横向两个维度的处理。我们知道,对于任何二维的操作,都可以分解为一维方向的操作来简化...

24060
来自专栏视觉求索无尽也

Markdown:插入数学公式

1.1K20
来自专栏图形学与OpenGL

实验二 直线DDA生成算法的GDI实现

理解基本图形元素光栅化的基本原理,掌握一种基本图形元素光栅化算法,利用GDI实现直线光栅化的DDA算法。

21320
来自专栏数据小魔方

直方图

今天跟大家分享直方图的制作技巧! ▼ 直方图是统计描述常用的图表工具,虽然跟柱形图外表有点类似,但是制作方法却要比柱形图复杂得多,今天要跟大家分享两种直方图的制...

30560
来自专栏深度学习与计算机视觉

OpenCV ImageWatch插件安装与使用说明

在使用OpenCV时,如果我们想看到一个图片的处理效果,只能把它显示出来,而插入断点调试也只能看到Mat类型变量中的一些信息,看不到图片效果。而ImageWat...

24670

扫码关注云+社区

领取腾讯云代金券