首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号

不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓取百度贴吧发帖记录中的邮箱与手机号的爬虫,于是开源分享给大家学习与参考...需求分析: 本爬虫主要是对百度贴吧中各种帖子的内容进行抓取,并且分析帖子内容将其中的手机号和邮箱地址抓取出来。主要流程在代码注释中有详细解释。...包括有的时候我们抓取的数据是使用json,如果使用mongodb等nosql数据库存储,也会很占内存。...在python中不叫数组,叫做list,中文名列表),然后再用一个for循环遍历这个article_list数组,用各种抓取网页内容的函数把内容抓取下来然后存入数据库。...MySQLdb: 这是一个第三方模块,用于在python中操作mysql数据库

1.2K21
您找到你想要的搜索结果了吗?
是的
没有找到

robots添加Sitemap链接位置

,添加如下内容:User-agent:*Disallow:/屏蔽某个目录、文件       案例:屏蔽所有蜘蛛抓取根目录下的inc文件夹及里面的所有内容,根目录下的wap目录下的index.html文件...robots.txt文件添加如下内容:User-agent:*Disallow:/inc/Disallow:/wap/index.html屏蔽某个目录,但抓取目录下的文件或文件夹①案例:屏蔽所有蜘蛛抓取根目录下的...wap文件夹,但抓取里面后缀名为html的文件User-agent:*Disallow:/wap/Allow:/wap/*.html       注意:上面的写法,wap带“/”代表根目录下的wap目录下的内容...②案例:禁止抓取根目录下所有前面带“wap”字符的文件夹及文件User-agent:*Disallow:/wap       禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html...比如:禁止抓取/include,就可以写成如下,当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取

1.1K60

挑战30天学完Python:Day22 爬虫python数据抓取

为了收集这些数据,我们需要知道如何从一个网站抓取这些数据。 网络抓取本质上是从网站中提取和收集数据,并将其存储在本地机器或数据库中的过程。 在本节中,我们将使用 beautifulsoup 和?...requests 包来抓取数据。 友情提醒:数据抓取不合法,本篇内容请仅用于测试和学习用。 如果你的Python环境中还没如下两个库,请用pip进行安装。...import requests from bs4 import BeautifulSoup url = 'http://wap.sina.cn/' # 让我们使用网络请求url,获取返回的数据 response...import requests import re from bs4 import BeautifulSoup url = 'http://wap.sina.cn/' response = requests.get...第22天练习 抓取豆瓣电影排行版中电影前10个电影的基本信息 https://movie.douban.com/chart。

28330

实战 | 记一次曲折的钓鱼溯源反制

如下 在这里我们能够了解到,网站使用了ajax来进行数据传输,将数据提交到了本站的wap目录,然后身份证号码进行了一下简单的正则判断,规定输入为数字且位数为18位。...现在我们构造数据,提交数据,然后抓取数据包来进行测试,抓取的数据包如下: 接下来开始测试是否存在SQL注入,name参数后添加单引号,发送数据,发现报错,存在SQL注入!...我们就把它当成绝对路径吧,死马当活马医,看看能不能写入文件,构造payload: into outfile '\\www\\wwwroot\\p******7.a******ka.cn\\config\\wap...如下 如果我们知道了数据库的账号密码和数据库名,是不是就可以尝试连接数据库了。所以现在重点是获取数据库账号密码。这如何获取呢?...登陆师傅提供的地址如下 这里还是有一些数据的,还是有上当受骗的,自己的个人信息被骗完了,最后还输入了自己的手机号,接到了验证码,还把验证码提交到了钓鱼网站。

1.3K41

一天可抓取 1300 万条数据的新浪微博爬虫

项目爬的是新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些(可见爬虫福利:如何爬wap站)。...爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况,我使用的是校园网(广工大学城校区),普通的家庭网络可能才一半的速度,甚至都不到。...数据库:MongoDB 3.2.0 (Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1) 主要使用 scrapy 爬虫框架。...运行截图: 数据库说明: SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。...数据库设置 Information、Tweets、Follows、Fans四张表,此处仅介绍前面两张表的字段。 Information 表: _id:采用 “用户ID” 作为唯一标识。

1.7K80

账号攻击的几种常见

m.xxxx.com/ 的手机版本,也可以通过路径枚举工具 dirsearch(https://github.com/maurosoria/dirsearch)找到类似 https://www.xxxx.com/wap...---- 账号可枚举 在登录页面 https://www.xxxx.com/Wap/User/login 输入账号、密码: 提交后拦截请求,若账号不存在则服务端应答为: 若账号存在则服务端应答为:...top1000 为字典,进行密码暴破: 其中,应答包长度为 380 的均为有效密码,存为 logined.txt: ---- 任意账号注册 在注册页面 https://www.xxxx.com/Wap.../User/register 输入未注册过的手机号点击“获取验证码”后、输入收到的短信验证码后提交,进入密码设置页面: 输入密码后拦截请求: 简单分析发现,register_mobile 为注册的用户名...比如,系统本来只允许用手机号当用户名进行注册,利用该漏洞,可以创建账号 yangyangwithgnu/abcd1234,登录确认: ---- 任意账号密码找回 密码找回页面 https://www.xxxx.com

84510

【读者投稿】无线渗透--‘钓鱼’wifi

现在家庭的路由器的加密模式都是,WAP2/psk,他是WEP加密的升级版,下图就是WEP的加密过程: ?...所以现在的家用WiFi都是wap2不会采用WEP,但是wap2加密的wifi还是可以给暴力破解的,使用跑字典的方式进行破解,密码能否破出来是看你的字典够不够强大。...工作原理 扫描能够接收到的WIFI信号 抓取握手包(这一步的目的是为了验证WiFi密码是否正确) 使用WEB接口 启动一个假的AP实例来模拟原本的接入点 然后会生成一个MDK3进程。...如果普通用户已经连接到这个WiFi,也会输入WiFi密码 随后启动一个模拟的DNS服务器并且抓取所有的DNS请求,并且会把这些请求重新定向到一个含有恶意脚本的HOST地址 随后会弹出一个窗口提示用户输入正确的...WiFi密码 用户输入的密码将和第二步抓到的握手包做比较来核实密码是否正确 这个程序是自动化运行的,并且能够很快的抓取到WiFi密码。

2K00

记一次某大型活动溯源红队身份

,如: https://github.com/zengzhan/qqzeng-ip 如果我们知道红队大致是在北京地区活动,则我们可以从数据库中摘取北京地区的号码,通过前三位+北京地区四位+1位(0-9)...+后三位,经过初步筛选后,则剩余的手机号,可能有500左右,随后我们可以通过手机号反查邮箱的方法,获得对应的邮箱+手机号。...获得手机号后,我们可以通过支付宝转账的方法,获取对方真实姓名。 如下为本次大型活动中抓取的某黑客的信息,并进行溯源的结果。...黑客访问了部署了带有jsonp劫持的页面,抓取到的信息如下,有用户id,通过该用户id可访问用户的主页。 获取到该红队人员的手机号为1XXXXXX。 通过数据库检索后,对该手机号进行反查。...获取到对应的手机号后,可以通过支付宝内的转账功能,获取手机号+邮箱后,可以通过支付宝的转账功能,获取真实姓名,最后还可以通过猎聘、脉脉、boss直聘等招聘软件,通过搜索手机号的方法,获取到红队的入职信息

2K20

python3 selenium + f

一、 分析: 抓取动态页面js加载的人民日报里面的新闻详情 https://wap.peopleapp.com/news/1 先打开,然后查看网页源码,发现是一堆js,并没有具体的每个新闻的url详情...看到这些数据里面有两个ID,联想到刚刚访问具体新闻详情页面也有两个数字,肯定,具体新闻页面肯定是 https://wap.peopleapp.com/article 加上两个ID形成的。...ee9bad0d112f882403f5b9f4dc2266a0&interface_code=610 发现只要我页面往下翻,就会新加载一条,于是我只要能解决两个问题: 1.往下翻页的问题,让这个数据url给加载出来 2.把这个url抓取到日志里面利用脚本访问...最后找一个https验证访问即可 fiddler 过滤(对动态抓取,可不设置,扩展学习) 参考: https://www.cnblogs.com/sjl179947253/p/7627250.html...分成具体的每个月进行写入日志等) for news in news_data_li: id = news["id"] articleid = news["articleid"] news_url = "https://wap.peopleapp.com

98230

经典Bug永流传---每周一“虫”(四)

title: 就是浏览器上显示的那些内容,不仅用户能看到,也能被搜索引擎检索到(搜索引擎在抓取网页时,最先读取的就是网页标题,所以title是否正确设置极其重要。)...Web/Wap SEO搜索 Bug: XX网站,教程页,title、keywords、description seo相关信息未填写 ?...原因分析: 部分开发人员没有这个意识 经典原因: 容易被大家遗忘的 知识点和测试点,包括开发跟测试,也是容易被漏测的点; 看页面是看不出来,必须得会工具看,如谷歌 浏览器的 F12 场景: web/wap...网页标题确认; 预防: 该问题分享到测试组,确认是否大家是否都知道,知道的加深下知识,不知道的学习讲解下并及时测试该部分内容; web/WAP常规测试内容点,用于新增人员的学习; 补充到经典Bug库,

42210

Android开发(十四) Android Manifest.xml配置访问权限设置

一  Android Manifest.xml配置中有一组的配置:  对照表: ACCESS_CHECKIN_PROPERTIES    允许在登入数据库的时候读写其中的属性表...允许应用发出一个程序包被移除的广播消息 BROADCAST_SMS    允许应用发出一个收到短信的消息 BROADCAST_STICKY    允许应用发出一个与intent相连的消息 BROADCAST_WAP_PUSH...    允许应用发出一个收到WAP PUSH的广播消息 CALL_PHONE    允许应用启动一个用户确认电话被拨打而不通过拨打电话的用户界面的的拨打程序 CALL_PRIVILEGED    ...限定或终止呼出的电话 READ_CALENDAR    允许应用读取用户的日历数据 READ_CONTACTS    允许应用读取用户的联系人数据 READ_FRAME_BUFFER    允许应用抓取屏幕和更多可获得的缓冲数据...中加入以下代码: 1.2 允许读写访问”properties”表在 checkin数据库

2.9K20
领券