首页
学习
活动
专区
工具
TVP
发布

FunTester

Fun·BUG挖掘机·性能征服者·头顶锅盖·Tester
专栏成员
915
文章
813899
阅读量
47
订阅数
程序员的AB面
FunTester
2023-08-04
1710
微信公众号文章爬虫实践
年前发了一篇FunTester公众号原创文章总结FunTester原创大赏,但是整理的时候却发现自己没有记录文章的发表日期,导致有一些文章由于发表日志过早(且排名靠前)影响了一丝阅读体验,所以我想了一个办法爬取了每篇文章的发表时间,在自己整理的Markdown文档中增加发表日期内容。
FunTester
2022-04-01
1.2K0
图片爬虫实践
之前写了一个Java&Groovy下载文件对比,其中主要的实践就是通过下载图片验证的功能。之前也承诺过一个图片爬虫的功能,刚好有个机会写了一个爬虫,下载一些二维码图片的素材。
FunTester
2021-03-11
4430
Java&Groovy下载文件对比
最近工作有个上传和下载的相关的测试,所以就写了一个下载文件(目前都是图片)的方法。Java不过瘾,顺手也找了一下Groovy的下载文件方法。
FunTester
2021-03-11
7300
scrapy 工作踩坑记
1. 一次启动所有爬虫 ### crawlall.py from scrapy.commands import ScrapyCommand class Command(ScrapyCommand): requires_project = True def syntax(self): return '[options]' def short_desc(self): return 'Runs all of the spiders' def
FunTester
2020-12-24
4030
关注专栏作者,随时接收最新技术干货
FunTester
隐藏技能性能测试
用户6343696
大连东软实习生
FunTester原创文章(升级篇)
公众号:FunTester,原创分享爱好者,腾讯云、掘金社区、开源中国推荐,知乎八级原创作者,主要方向接口功能、自动化、性能测试,兼顾白盒测试,框架开发,业务开发。工作语言Java和Groovy,欢迎关注。 GitHub地址 测开笔记 我的开发日记(一) 我的开发日记(二) 我的开发日记(三) 我的开发日记(四) 我的开发日记(五) 我的开发日记(六) 我的开发日记(七) 我的开发日记(八) 我的开发日记(九) 我的开发日记(十) 我的开发日记(十一) 我的开发日记(十二) 我的开发日记(十三) 我的开发日
FunTester
2020-12-01
3.8K0
记一次失败的爬虫
收到一天振奋人心的假新闻,导致我去找了公开信息网站定点药店的信息,虽然结果比较失败,过程还是挺欢乐的,记录下来又可以水一篇文章了。以下是原文:
FunTester
2020-02-17
3200
如何在跨浏览器测试中提高效率
Web端应用测试主要障碍之一就是在不同的浏览器上“测试他们的网站/应用程序”,也称为“跨浏览器测试”或者“兼容性测试”。浏览器和浏览器版本很多(Google Chrome,Mozilla Firefox,Internet Explorer,Microsoft Edge,Opera,Yandex等),可以通过多种设备(通过台式机,笔记本,智能手机,平板电脑等)访问网站/应用。)以及可能用于访问网站的多种操作系统(Windows,MacOS,Linux,Android,iOS等)。
FunTester
2020-01-17
6280
爬虫实践--CBA历年比赛数据
闲来无聊,刚好有个朋友来问爬虫的事情,说起来了CBA这两年的比赛数据,做个分析,再来个大数据啥的。来了兴趣,果然搞起来,下面分享一下爬虫的思路。
FunTester
2019-11-15
5730
爬取720万条城市历史天气数据
内容爬虫完毕,校验完毕,缺失信息暂未统计。总数据720万,地区3200个,年份从2011-2019,大小950Mb,原始数据已丢失,需要的朋友可以自己运行脚本挂一晚上。中间遇到了很多坑,有机会我再写一遍博客专门讲讲大量数据爬虫遇到的坑。
FunTester
2019-10-24
1.1K0
电子书网站爬虫实践
近期搜电子是的时候发现一个有趣的网站,很多精校版的电子书,由于好奇,就想做一个爬虫把名称汇总一下。(具体原因在于canvas的页面背景效果在Chrome浏览器里面特别消耗资源)自己去搜索书名,然后找下载地址。十几分钟,脚本基本写完,一晚上时间也差不多能够跑完了。
FunTester
2019-10-23
6780
groovy爬虫实例——历史上的今天
最近做了一个历史上今天的爬虫程序,跟历史天气数据源一致,数据量比较小,几十秒就爬完了。中间遇到一些问题,一起分享出来供大家参考。本项目源码和相关数据已经上传到了github,有兴趣的朋友可以去看看,会不定期更新。
FunTester
2019-10-23
6920
selenium2java让浏览器停止加载的方法
本人在使用selenium2java的过程中,偶然会遇到一些网页一直在加载,大概是防爬虫的一些东西,或者网速太慢了,或者有一些请求一直没有返回,今天想到一个办法,使用多线程按快捷键esc来使浏览器停止加载。试了效果不错,分享出来,供大家参考。
FunTester
2019-09-25
9540
httpclient 多线程爬虫实例
本人最近在研究安全测试的过程中,偶然发现某站一个漏洞,在获取资源的时候竟然不需要校验,原来设定的用户每天获取资源的次数限制就没了。赶紧想到用爬虫多爬一些数据,但是奈何数据量太大了,所以想到用多线程来爬虫。经过尝试终于完成了,脚本写得比较粗糙,因为没真想爬完。预计10万数据量,10个线程,每个线程爬1万,每次爬100个数据(竟然是 get 接口,有 url 长度限制)。
FunTester
2019-09-18
6880
httpclient爬虫爬取汉字拼音等信息
下面是使用httpclient爬虫爬取某个网站的汉字相关信息的实践代码,中间遇到了一些字符格式的问题。之前被同事见过用html解析类来抓取页面信息,而不是像我现在用正则,经常尝试,效果并不好,毕竟页面放爬虫还是非常好做的。在本次实践中,就遇到了相关的难点,所以还是才去了正则提取的方式。分享代码,供大家参考。关键信息并未隐去。
FunTester
2019-09-17
9130
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档