Python爬虫与算法进阶

102 篇文章
44 人订阅

全部文章

小歪

TopK大问题的另一种解法

在未排序的数组中找到第 k 个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。

1013
小歪

Chrome断点JS寻找淘宝签名sign

写了这篇文章淘宝sign加密算法 之后,很多人问我Chrome断点调试怎么做,今天会尽量详细聊聊。如果你用使用过Pycharm的断点,会更好理解。

2313
小歪

MongoDB保存数据的优化方法

问题描述:我有多个线程在抓数据,每天数据里有含有多个文档(Document),使用Pymongo的插入方法,逐条插入。形如下

871
小歪

Tumblr爬虫——下载指定博主资源

看看最近的新闻都知道Tumblr将在12月17日起下架所有成人内容。具体信息如下,内容来自官网

652
小歪

video-to-ascii:在命令行中看视频

最近GitHub上有个很好玩的项目,叫做video-to-ascii。这是一个简单的python包,可以使用字符作为像素在终端中播放视频。

672
小歪

萌新刷题之跳跃游戏

每次选择最远能达到的地方,假设从某一点最远可以到达A点,那么A点之前的所有点都是可以到达的。所以我们只要不断的更新最远可达到的点,然后看是否最远的点超过了终点即...

521
小歪

推荐一个插件,让CSDN更简洁

先去安装一个Chrome插件Adblock Plus,然后在设置——高级——我的过滤列表中加入 ,保存即可。

591
小歪

Python堆排序之heapq

heapq模块实现了Python中的堆排序,并提供了有关方法。让用Python实现排序算法有了简单快捷的方式。

632
小歪

介绍一个文本提取库 —— Goose

可以看到这里还是有一点点爬虫的味道,下面是安装依赖,可以看到很多熟悉的下载器requests、解析器lxml,图像处理Pillow,做NLP的jieba、nlt...

783
小歪

说一道排序题

关于Python的sorted排序算法,这篇文章讲的比较详细:python sort函数内部实现原理,说到Python使用的是著名的Timesort算法。

462
小歪

App爬虫思路

但是我觉得不够全,首先对于一般的HTTP和HTTPS协议,通过最基本的Fiddler和Charles就可以抓包,具体方法请Google。需要保证两点:App走代...

1312
小歪

神经网络基础及Keras入门

人工神经网络,简称神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估...

913
小歪

WebSocket爬虫之爬取龙珠弹幕

我是个宅男,喜欢看很多人直播,以前可以看一天直播不出门。现在主要看这么些主播,虎牙的韦神、Dopa,斗鱼的狗贼嘘嘘。

1623
小歪

Pycharm插件推荐:Docker integration

在设置-Plugins-BROWSE REPOSITORIES… 中搜索“Docker”

1002
小歪

Keras 训练简单的深度神经网络

机器学习训练营最近的作业都是使用Keras,所以最近去翻了下文档,这里记录一下学习栗子。(官网有中文文档)

722
小歪

Python实现常见的回文字符串算法

Manacher 算法首先对字符串做一个预处理,使得所有的串都是奇数长度, 插入的是同样的符号且符号不存在与原串中,串的回文性不受影响

734
小歪

当selenium被识别爬虫后

因为某站发版,在修一个以前的项目,用Selenium驱动Chrome来做的,然后在某页面需要点击,无论怎么做都失效,我尝试过如下方法:

2463
小歪

Scala学习之相同的函数名

最近在慢慢的开始用Scala写Spark,刚开始也是在菜鸟教程上简单过了一遍Scala,现在还记得一些基本语法,还有各种奇怪的语法糖。想要更快的学习这门语言,还...

693
小歪

爬虫之全站爬取方法

其实这个很好理解。比如说知乎,一个大V有100W粉丝,从这个大V出发,抓取粉丝的粉丝,一直循环下去。(可能是个死循环)

1203
小歪

Spark实战--学习UDF

UDF全称User-Defined Functions,用户自定义函数,是Spark SQL的一项功能,用于定义新的基于列的函数,这些函数扩展了Spark SQ...

631

扫码关注云+社区