首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一种精确从文本中提取URL的思路及实现

在今年三四月份,我接受了一个需求:从文本中提取URL。这样的需求,可能算是非常小众的需求了。大概只有QQ、飞信、阿里旺旺等之类的即时通讯软件存在这样的需求。在研究这个之前,我测试了这些软件这块功能,发现它们这块的功能还是非常弱的。这类软件往往也是恶意URL传播的媒介,如果不能准确识别出URL,相应的URL安全检测也无从谈起。而且网上也有很多使用正则表达式的方法,可是我看了下,方法简单但是不够精确,对于要求不高的情况可以胜任,但是如果“坏人”想绕过这种提取也是很方便的。(转载请指明出处)下面也是我在公司内部做的一次分享的内容:

02

前期信息收集 - - - 子域名收集工具

whois(读作“Who is”,非缩写)是用来查询域名域名域名的IP以及所有者所有者所有者等信息的传输协议传输协议传输协议。简单说,whois就是一个用来查询域名域名域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人、域名注册域名注册域名注册商)。通过whois来实现对域名域名域名信息的查询。早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询。网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员系统管理员系统管理员广泛使用。whois通常使用TCPTCPTCP协议43端口。每个域名域名域名/IP的whois信息由对应的管理机构保存。(取自百度百科。)

03
领券