首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

selenium登录爬网站数据

目标网站:古诗文网站实现目标:自动化登录网站,并爬指定页面的数据,并存储用到的工具:selenium、百度手写数字识别第一步:浏览网页我们发现登录目标网站只需填写用户的信息,然后填写验证码既可以登录网站...')# 填写密码bro.find_element_by_id('pwd').send_keys('你的密码')登录的关键在于获取验证码,之前我有尝试过直接把验证码图片爬取下来,但是到验证码读取之后登录网站时...,发现当我在获取验证码图片的时候,对网站进行了二次请求,所以等到验证码识别之后,填写验证码的时候,出现验证码和图片上的码不相符的情况,所以这里我还是用截图抠图的方式来获取验证码图片。...用来退化我们不需要的那部分图像处理后的图片图片我们可以看到很明显,中间的验证码更清楚了第三步:识别图片我们读取图片之后,就可以用百度手写数字识别来识别图片了,关于百度手写数字识别,我们登录百度人工智能网站...:爬网站数据这里我就不全站爬取了,有兴趣的朋友可以学习了crawlspider之后结合selenium进行全站爬,后续会写相关文章,我们随便定位一个选项卡图片我们爬取名句的第一页数据,具体代码如下,

56330

Python爬电影天堂网站

一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬的起点 。...首先要分析一下电影天堂网站的首页结构。 ? 从上面的菜单栏中我们可以看到整个网站资源的总体分类情况。刚刚好我们可以利用到它的这个分类,将每一个分类地址作为爬虫的起点。...①解析首页地址 提取分类信息 #解析首页 def CrawIndexPage(starturl): print "正在爬首页" page = __getpage(starturl)...二是一定要对分页进行处理,网站中的数据都是通过分页这种形式展示的,所以如何识别并抓取分页也是很重要的。...③解析资源地址保存到文件中 #处理资源页面 爬资源地址 def CrawlSourcePage(url,filedir,filename,CrawledURLs): print url

1.1K20

Python爬虫爬美剧网站

之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。...虽说找到了资源网站可以下载了,但是每次都要打开浏览器,输入网址,找到该美剧,然后点击链接才能下载。时间长了就觉得过程好繁琐,而且有时候网站链接还会打不开,会有点麻烦。...但是,好多重复链接,还有其网站的url不是我想的那么规则,写了半天也没有写出我想要的那种发散式的爬虫,也许是自己火候还不到吧,继续努力。。。...搞得我本来还想使用Redis在两台Linux上爬,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是爬的剧名中带有斜杠,这可把我坑苦了。

1.1K00

Python爬虫爬美剧网站

之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。...虽说找到了资源网站可以下载了,但是每次都要打开浏览器,输入网址,找到该美剧,然后点击链接才能下载。时间长了就觉得过程好繁琐,而且有时候网站链接还会打不开,会有点麻烦。...其余的就进行的很顺利了,网上找到前人写的类似的爬虫,但是只是爬一篇文章的,所以借鉴了一下其正则表达式。自己用了BeautifulSoup还没有正则效果好,所以果断弃了,学海无涯啊。...搞得我本来还想使用Redis在两台Linux上爬,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是爬的剧名中带有斜杠,这可把我坑苦了。

1.3K20

美团网站信息(一)

最近入坑爬虫,在摸索使用scrapy框架爬美团网站的数据 第一步,准备从地区信息开始爬,打开美团官网,点击切换地区,按F12,点击XHR,XHR会过滤出来异步请求,这样我们就看大了美团的地区信息的json...解析该json数据,会获取到部分的地区以及区县的信息,但这样不利于后面的爬,会重复爬。我是通过过滤出来市一级的信息,然后利用页面的中区域分类信息进行爬。 ?...将获取到的数据保存到MongoDB数据库 先保存省然后是市然后区县然后是街道,然后根据街道的url爬数据 ? 这是获取省份以及市的代码 ?...''' HTTPERROR_ALLOWED_CODES = [403] ---- 下次将继续更新爬县区以及街道的数据,数据量较大,目前还在继续爬,准备爬所有数据,有问题可以留言,只会提供思路,不会提供源代码

1.4K20

Python 爬虫爬美剧网站

之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。...虽说找到了资源网站可以下载了,但是每次都要打开浏览器,输入网址,找到该美剧,然后点击链接才能下载。时间长了就觉得过程好繁琐,而且有时候网站链接还会打不开,会有点麻烦。...但是,好多重复链接,还有其网站的url不是我想的那么规则,写了半天也没有写出我想要的那种发散式的爬虫,也许是自己火候还不到吧,继续努力。。。...搞得我本来还想使用Redis在两台Linux上爬,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是爬的剧名中带有斜杠,这可把我坑苦了。

1.4K70
领券