首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

网站信息(二)

目前还在写代码中,模拟登陆,所以在慢慢更新 接着上一次的代码,接下来就是关于区县以及街道的信息 有了上一次的省市信息,从数据库中拿出市一级的信息,根据的请求的url,发现只需要拼音的简写,就可以组成新的...url去访问 依据此,去数据 先去从数据库中获取数据,直接的截图,返回的是一个生成器,生成器的知识自己去了解,返回的是城市的id,及它的拼音简写 接下来就是拼接url,发送请求,获取区县数据,源码的一部分...接下来就是将所需要数据解析出来,根据items中定义的,去保存数据,通过管道将其保存到数据库中,下图中的数据是从数据中导出来的,区县的数据(3092) 街道的数据(20593) 当然数据可能没有那么完整,目前就更具此来店铺的简要信息一共是

71730

如何网美食

转载自公众号数据森麟公众号(ID:shujusenlin) 数据三步曲之前方有坑 工作需求需要采集OTA网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事。。。...数据三步曲之开始填坑 问题来了!纠结半天后发现这个token是有时效的,而且是js生成的。。。这也不是问题,get请求行不通我们还有selenuim。...悲催的是真的是大厂直接封杀selenuim ? 数据三步曲之将坑填平 又回到原点。没办法只能从token下手了经过一番查找发现一个js文件 ? 嗯。。。...好吧继续,因为之前没有用python直接调用js,百度一番发现pyexecjs、PyV8等都可以。悲催的是我的python2.7安装pyexecjs后一直不能正常使用,PyV8没有问题。...测试完成先抓取北京和上海数据进行数据可视化 在统计师发现还是对数据经行了限制每个类型的餐饮场所最多显示每页32个一共32页。也就是32*32=1024个 ?

82420

网站信息(一)

最近入坑爬虫,在摸索使用scrapy框架网站的数据 第一步,准备从地区信息开始,打开官网,点击切换地区,按F12,点击XHR,XHR会过滤出来异步请求,这样我们就看大了的地区信息的json...解析该json数据,会获取到部分的地区以及区县的信息,但这样不利于后面的,会重复。我是通过过滤出来市一级的信息,然后利用页面的中区域分类信息进行。 ?...将获取到的数据保存到MongoDB数据库 先保存省然后是市然后区县然后是街道,然后根据街道的url数据 ? 这是获取省份以及市的代码 ?...''' HTTPERROR_ALLOWED_CODES = [403] ---- 下次将继续更新县区以及街道的数据,数据量较大,目前还在继续,准备所有数据,有问题可以留言,只会提供思路,不会提供源代码

1.4K20

Python两招轻松评论

大家好,最近分别从商家选址和顾客挑店的角度写了两篇有关数据的分析: Python告诉你想开一家美食店该怎么做 重庆火锅哪家强,Python帮你探探店 结果很多读者对数据的过程比较感兴趣,那么今天就讲一下我是怎样获取数据...所以只要写个简单的循环生成多页URL就能拿下指定页数的评论,OK这仅是一家店铺的评论办法,那怎么获得多家店铺的评论呢?...店铺基本数据 为了找到店铺ID,让我们回到搜索页面中(首页—美食—火锅) ? 上面的页面中就是重庆火锅的第一页,还是F12刷新很容易就能找到包含店铺ID、均价等相关信息的数据包 ?...结束语 以上就是我如何店铺和评论数据的一些说明,看上去也并不难无非就是Requests+Pandas清洗即可,由于变化的URL甚至没法开一个线程ID另一个线程评论而显得不太聪明。...并没有什么高级操作,所以我不再提供具体与清洗数据的相关代码(事实上也很容易失效)! 注1:爬下来的数据仅限学习研究使用! 注2:过程请一定记得设置请求频率以及代理池,不然很容易封IP!

92950

Python爬虫剧网站

正好一直在学习Python爬虫,所以今天就心血来潮来写了个爬虫,抓取该网站上所有剧链接,并保存在文本文档中,想要哪部剧就直接打开复制链接到迅雷就可以下载啦。 ?...但是很多url是不存在的,所以会直接挂掉,别担心,我们用的可是requests,其自带的status_code就是用来判断请求返回的状态的,所以只要是返回的状态码是404的我们都把它跳过,其他的都进去链接...self.save_links(url) except Exception,e: pass 其余的就进行的很顺利了,网上找到前人写的类似的爬虫,但是只是一篇文章的...搞得我本来还想使用Redis在两台Linux上,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是的剧名中带有斜杠,这可把我坑苦了。

1.1K00

python 外卖爬虫外卖商家店铺商户信息的尝试

外卖作为我们外卖从业人员,是一个很好的平台,从业人员以及相关的数据研究者经常需要从该平台上获取相关数据进行分析,研究竞品销售、分析外卖行业情况等。那么,该平台的数据怎么进行呢?...因为系所有平台都需要登录才可以浏览相关数据,所以我们下一步就选择进行登录。...所有的数字除1以外,其他都是乱码,这应该就是出名的字体替换混淆技术了。 image.png 那么我们只能来分析,看是用什么字体文件来进行替换的,我们再想办法替换回来了。...说明是将h5端的这部分数据故意模糊的,让我们多使用app,那么既然这样,我们就多用app吧。当然,我们只要进入到详情当中,还是可以统计到某商家具体的销量的。...商家列表: image.png 外卖信息详情: image.png 好了,总结一下,外卖爬虫 - 外卖信息,这个爬虫代码还是有相当的难度的,有很多地方我们新手是解决不了的,比如字体混淆、加密参数等

11.2K11

Python 爬虫剧网站

正好一直在学习Python爬虫,所以今天就心血来潮来写了个爬虫,抓取该网站上所有剧链接,并保存在文本文档中,想要哪部剧就直接打开复制链接到迅雷就可以下载啦。 ?...但是很多url是不存在的,所以会直接挂掉,别担心,我们用的可是requests,其自带的status_code就是用来判断请求返回的状态的,所以只要是返回的状态码是404的我们都把它跳过,其他的都进去链接...self.save_links(url) except Exception,e: pass 其余的就进行的很顺利了,网上找到前人写的类似的爬虫,但是只是一篇文章的...搞得我本来还想使用Redis在两台Linux上,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是的剧名中带有斜杠,这可把我坑苦了。

1.4K70

Python爬虫剧网站

正好一直在学习Python爬虫,所以今天就心血来潮来写了个爬虫,抓取该网站上所有剧链接,并保存在文本文档中,想要哪部剧就直接打开复制链接到迅雷就可以下载啦。 ?...但是很多url是不存在的,所以会直接挂掉,别担心,我们用的可是requests,其自带的status_code就是用来判断请求返回的状态的,所以只要是返回的状态码是404的我们都把它跳过,其他的都进去链接...其余的就进行的很顺利了,网上找到前人写的类似的爬虫,但是只是一篇文章的,所以借鉴了一下其正则表达式。自己用了BeautifulSoup还没有正则效果好,所以果断弃了,学海无涯啊。...搞得我本来还想使用Redis在两台Linux上,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是的剧名中带有斜杠,这可把我坑苦了。

1.3K20

Python网数据这么简单,别再说你不会了哦!

存储结果到本地 4.总结 1.概述 网的爬虫整体其实比较简单,通过开发者模式找到真实数据请求地址后,用requests请求的数据格式是标准的json字符串,非常好处理。...存储结果到本地 同2.4.存储结果到本地(csv文件) 4.总结 对于的这两种数据采集方式,我们在进行处理的时候难易度不一样。...其中搜索结果数据采集相对简单,在获取到真实数据请求地址后,编写循环脚本就能完成批量;但是对于第二种分类筛选结果数据采集来说,由于其token是时刻在变化的,我们需要进行一定的生成处理后才能取到数据...因此,我们推荐使用搜索结果数据采集的方式 不过,如果我们想更多更全的数据,可能需要进行以下几点额外操作: 由于网站存在反(主要是对频率、次数和ip有限),大家可以通过设置爬虫间隔时间、设置请求头以及使用代理...ip的形式处理 由于对于同一个结果,无论是搜索结果还是筛选后的结果,其页数都是有上限的,大家可以通过分区域、类型等多种筛选条件组合来全部数据 以上爬虫代码没有太模块化,大家可以写类或者函数的方式将功能模块封装起来

11.3K31

python爬虫实战:剧网站

正好一直在学习Python爬虫,所以今天就心血来潮来写了个爬虫,抓取该网站上所有剧链接,并保存在文本文档中,想要哪部剧就直接打开复制链接到迅雷就可以下载啦。 ?...但是很多url是不存在的,所以会直接挂掉,别担心,我们用的可是requests,其自带的status_code就是用来判断请求返回的状态的,所以只要是返回的状态码是404的我们都把它跳过,其他的都进去链接...self.save_links(url) except Exception,e: pass 其余的就进行的很顺利了,网上找到前人写的类似的爬虫,但是只是一篇文章的...搞得我本来还想使用Redis在两台Linux上,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是的剧名中带有斜杠,这可把我坑苦了。

77130

分析网,原来北京上海Top10美食是它们

新晋python 小白,希望与志同道合者一起煮酒论英雄,数据森麟特邀作者。 数据三步曲之前方有坑 工作需求需要采集OTA网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事。。。...数据三步曲之开始填坑 问题来了!纠结半天后发现这个token是有时效的,而且是js生成的。。。这也不是问题,get请求行不通我们还有selenuim。...悲催的是真的是大厂直接封杀selenuim ? 数据三步曲之将坑填平 又回到原点。没办法只能从token下手了经过一番查找发现一个js文件 ? 嗯。。。...好吧继续,因为之前没有用python直接调用js,百度一番发现pyexecjs、PyV8等都可以。悲催的是我的python2.7安装pyexecjs后一直不能正常使用,PyV8没有问题。...测试完成先抓取北京和上海数据进行数据可视化 在统计师发现还是对数据经行了限制每个类型的餐饮场所最多显示每页32个一共32页。也就是32*32=1024个 ?

72430

Python资源

class="next page-numbers"]') if next_page == []: xxx else: xxx 如果存在下一页,那么就交由另外一部分来处理,完一页的资源后...,若没有想要的资源,输入y (大小写都可以)就可以自动取下一页的资源内容了,如果这一页有想要的资源,输入N就可以退出,并输入资源ID后就可获得该资源的网盘链接了 当然,为了避免大小写的问题,我在获取了用户输入的东西后...,自动全部大写 confirm = input("是否取下一页内容(Y/N): ") if confirm.upper() == ("Y"): xxx 下面是一个改版的流程 版本...功能 备注 v1.0 获取资源名和链接 第一小步 v1.1 自动获取百度网盘链接 基本完成 v1.2 顺便获取网盘链接密码 功能实现 v2.1 更改了结构,用户可选择指定的资源而不是全盘,界面看起来更美观

1.7K10
领券