首页
学习
活动
专区
工具
TVP
发布

不二小段

专栏作者
37
文章
64242
阅读量
31
订阅数
Python 抓取新闻稿语料库
新闻联播是最权威的新闻来源,用语规范,内容涉及时政和社会的方方面面,对生活生产有着很强的指导意义。
不二小段
2020-02-12
1.6K0
【爬虫军火库】Windows创建计划任务定时执行Python脚本
上次分享了自动参与抽奖助手抽奖的Python代码和Linux服务器的部署方法(Python定时自动参与抽奖助手抽奖),然而并不是每个人都有远程服务器,都熟悉Linux操作,所以今天来分享一下如何在Windows上设置定时任务。
不二小段
2018-08-20
1.6K0
【爬虫军火库】AnyProxy安装使用【Windows】
分析网络请求详情是写爬虫应用的初始步骤,抓包便是一种十分强大的分析手段,尤其是对手机App进行抓包,往往能收获到Web端没有的API接口。抓包的工具多种多样,功能用法类似,今天给大家介绍一下AnyPr
不二小段
2018-04-08
5.4K2
Hell is empty and all the devils are here.
废话不多说,有空再闲聊。这(只)是一篇技术贴。 如何用十行代码备份一个知乎问题下的(所有)回答。 已经备份好的前600回答: https://pan.baidu.com/s/1jHFOQWY S
不二小段
2018-04-08
8600
【爬虫与反爬】记一次网址编码研究
相爱相杀的爬虫与反爬工程师啊……愿你们和谐相处。 前些日子写爬虫时遇到一个比较奇怪的编码,是构造目标网址的一个组成部分,我更倾向于说是编码而不是加密,虽然的确有点加密的意思。当时算是一个绕不开的需求,所以费了很大功夫研究了出来。有些时候网站的前端、后端工程师会用尽办法反爬,而写爬虫的人又要想尽办法反反爬,真可谓是相爱相杀了。尤其是在编码(加密)这件事上,我随口胡诌一个编码过程,就很难逆向推导出来,这次有点运气成分,也有点规律可寻,所以记录下来给大家。 为了让大家专注于编码本身,我就不把真实网址放出来了。大家
不二小段
2018-04-08
7330
【爬虫军火库】下载保存图片(文件)
今天开始开一个新坑,暂且叫做【爬虫军火库】吧。以前一直想系统地写些东西,最终大都未能成文,想来我不适合发宏愿立长志,还是一步一个脚印地写点零碎的东西。有关爬虫,以后会写很多东西,写完以后再进行梳理好了。 之所以要写军火库,是因为在写爬虫的过程中,遇到过很多重复性的工作。即便是Python的社区环境已经提供了很多很方便的第三方库,在实际操作中也难免需要根据不同情况做很多具体的分析。所以接下来要写的这个系列,会很像一个utils,记录一些小而实用、可复用的代码段,有些时候不会去关注前因后果,只是简简单单地聚焦在
不二小段
2018-04-08
9990
【爬虫军火库】Chrome F12使用Network分析异步请求
昨天在知乎收到一条邀答(https://www.zhihu.com/question/263298910): 我想做一个web scrape,用requests和beautifulSoup, 代码如下: url_to_scrape = 'http://finance.sina.com.cn/data/index.html#stock-schq-hsgs-xlhy' r = requests.get(url_to_scrape,'html.parser') r.encoding = 'gb2312' soup
不二小段
2018-04-08
2.3K0
零基础向:为什么要学习编程&如何入门编程
今天本来没有更新,结果收到了微信邀请开通原创和赞赏,遂赶工一篇文章。 这篇文章回答以下几个问题: 我们为什么要学习编程? 非计算机学生,如何对编程产生兴趣? 零基础,如何入门编程? 第一个问题:我们为什么要学习编程? 如果说和编程有关的最经常收到的提问,莫过于如何(零基础)入门编程/Python/爬虫。刚开始收到这种问题,还会认真地写点回答给些建议,后来见得多了,发现绝大多数都是只说不做的伸手党,渐渐地也就懒得回答了。 我们为什么会既热衷于“学习”,又热衷于放弃呢? 其实说起来,我是很热衷于号召乃至帮助大家
不二小段
2018-04-08
1.2K0
【一起学Python】STEAM游戏评测爬虫
别催更,越催越懒得写。催更只接受赞赏…可惜我的微信还没有赞赏的功能… 今天刚接的需求&新鲜的代码… 有个大佬昨天跟我说 来给我爬一下Steam的游戏评测吧,我要这个数据,这个数据,还有这个数据。效率我不管,存储方式我不管,数据分析我不管,你爬好了跟我说。 于是就有了今天的文章。 闲话少叙,我挑核心的部分来记录今天的工作。 主线任务:给定某STEAM平台游戏,抓取其评测相关信息(包括但不限于upvote/downvote、昵称、时间、评论等) 支线任务:抓取评价用户的游戏库存 隐藏任务:对用户评论进行情
不二小段
2018-04-08
8.1K5
【一起学Python】爬取网易云歌词
说在前面:这是公众号第一篇来自小伙伴的投稿。我之前挖过一个坑,说想抓取歌词以后做文本分析,后面不了了之了。刚好Ricky作为爬虫的初学者,需要小项目练手,他就把这件事接了过去,帮我填坑。作为初学者,做项目和做笔记是很重要的。Ricky把文章发给我后让我帮他改,我觉得其实每个人写文章风格不一样,有的人逗比,有的人严谨,只要能把事情讲清楚就好了。至于代码,只要能实现需求,我其实不在乎是Pythonic还是ugly。这也是一系列文章的第一篇,希望大家也能多多指点。 ▲ ▲ ▲ 接触python也有一段
不二小段
2018-04-08
1.3K0
Python性能提升20倍居然不是标题党?
前两天有小伙伴发了篇文章给我,让我验证一下靠不靠谱,标题写着《如何在 i5 上实现 20 倍的 Python 运行速度?》,我看了不以为然,八成又是个标题党。看了看发现是篇译文,歪果仁原文标题是 Ho
不二小段
2018-04-08
1.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档