首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我用python爬出了65535个端口对应的服务,这算是史上最全的么?

最近在学习python爬虫,正好同事做蜜罐需要65535个端口信息,所以顺便把端口信息爬下来了。

然而有个站点提供了这些信息:https://www.speedguide.net/port.php?port=21,链接比较固定,参数port即是端口号,所以只要遍历0-65535就可以获取0-65535的端口信息了。

我们只需要如上图所示表格中的内容,我只要把这些提取出来就行了。但是解析网页实在是有点头疼,一开始用了xpath,但是表格里面又带有html标签,网上查了一堆方法也没解决,只好继续用beautifulsoup了。然而在解析的时候每个端口的协议数量完全不同,所以还需要判断。而且这个网站不太稳定,还有反爬虫机制。不过绕过反爬还是比较好做的,加个时间延迟就OK了,反正放服务器里面慢慢跑,也可以加代理池。解析网页的方法比较奇葩,应该有其他更好的方法,只是个人思路。欢迎大家指正。

源码截图如下,代码量不多,其实还可以优化。喜欢爬虫和黑客的网友,欢迎关注。

请允许我附一张美图吸引浏览量[哭笑]

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180210A09S7K00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券