Python爬虫与算法进阶

77 篇文章
26 人订阅

全部文章

小歪

Spark教程(二)Spark连接MongoDB

数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中...

642
小歪

Spark教程(一)为什么要学spark

Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存...

754
小歪

使用scrapy发送post请求的坑

Requests 简便的 API 意味着所有 HTTP 请求类型都是显而易见的。例如,你可以这样发送一个 HTTP POST 请求:

1382
小歪

淘宝sign加密算法

淘宝对于h5的访问采用了和客户端不同的方式,由于在h5的js代码中保存appsercret具有较高的风险,mtop采用了随机分配令牌的方式,为每个访问端分配一个...

1942
小歪

Python多线程(一)

平时一个鸣人会一个人,但是遇到强敌时,他会使用影分身之术,召唤自己的兄弟来帮助他一起来战斗。这样,他就从一个人战斗变成多个人战斗。

960
小歪

为什么Selenium点不到元素

最近做了许多登陆项目,我会优先选择使用requests来模拟请求,但是有些参数实在是很难获取,这个时候我会使用Selenium,也还是遇到了各种坑,也算是见识到...

860
小歪

使用Selenium与Requests模拟登陆

注意两个地方,cookies和参数,先来看看参数,稍微特别的就是authenticity_token,感觉是验证。Ctrl+Shift+F打开搜索,最终在返回的...

762
小歪

Python函数超时,用装饰器解决

我们在自定义一个函数后,会调用这个函数来完成我们想要的功能。 就拿爬虫来举例,你发送请求,服务器给你响应,但是有可能服务器没有给你任何数据,无论是他识别了爬虫、...

862
小歪

说说最近遇到的反爬

参数加密指的是在请求中需要加上类似token、uuid 字段,例如在某个请求中query string parameters中有_token和uuid、cust...

883
小歪

快速写一个爬虫

今天下班前,老板让我帮忙爬一个数据,简单看了下,需要登录,看起来应该不难。回到家,注册一个账号,复制url,然后用postman转代码,简单暴力,直接撸。

741
小歪

Katalon + 傻瓜 == selenium 代码

、简直是神器啊 (๑• . •๑)今天在翻莫烦大大的博客时,看到他提到一个工具,便去看了下,第一感受是,太好用了、爱不释手。

1123
小歪

Cookies池的后续解决方案

在上一篇文章: 从cookie池搭建说起,简单说明了自己对于该网站的想法,在经过两天的测试与研究之后,我有了更多的想法.

741
小歪

为了知道胡歌粉丝的男女比率,爬了三百万微博数据

、最近偶然间看到一条新闻,标题是:“胡歌作为一个男性明星,男粉丝比女粉丝还多,这不科学!”

922
小歪

zsh (+fish) = 完美终端

自从用了深度,有一个非常明显的变化就是终端的改变,实在是比windows的好用一百倍,尤其是使用一些工具。下面说说我现在的配置。

743
小歪

Leetcode Solutions(一) two-sum

在map[整数]整数的序号中,可以查询到a的序号。这样就不用嵌套两个for循环了。

1184
小歪

Python最假的库:Faker

前辈在review的时候说怎么这么复杂,Python中有一个专门生成各类假数据的库:Faker,你去了解下。

671
小歪

告别win10,拥抱linux

我的回答:是,明明已经把自动更新关闭了,可是还是会有“易升”,win10易升一直卸载不掉。所以就想试试别的系统。

932
小歪

linux下安装Python3.6

892
小歪

awesome_crawl(一):腾讯新闻

、项目地址:https://github.com/zhangslob/awesome_crawl

1053
小歪

scrapy-redis 和 scrapy 有什么区别?

最近在工作中一直使用 redis 来管理分发爬虫任务,让我对 scrapy-redis 有很深刻的理解,下面让我慢慢说来。

793

扫码关注云+社区