我需要一个通用的脚本/模式来从URL中提取主域名。下面的尝试失败了。
假设我有这个link1,并且需要提取主域名(google.co.uk)而没有子域(邮件)。我制作了这个脚本,它对.co.uk很好,但是对于只有一个顶级域名的网站,比如:.com和.com,它会失败。
是否有更好的方法从任何URL中提取主域名?URL的构造如下:
https://(optional sub-domain)*(domain name with two or three top-level domain name)(optional forward slash followed by text)*
*指的是零次或多
目前,我有一个带有多个IP的文本文件,我目前只试图从使用nslookup提供的一组信息中提取域名(下面的代码)
with open('test.txt','r') as f:
for line in f:
print os.system('nslookup' + " " + line)
到目前为止,它可以从第一个IP中提取所有信息。我无法让它通过第一个IP,但我目前正在尝试清除只接收到IP域名的信息。有什么方法可以这样做吗?还是我需要使用一个分流模块?
在与old.txt文件比较后,我想从new.txt文件中提取唯一的域名。 Old.txt文件和new.txt文件都包含域列表,但是我想在与new.txt文件进行比较后,只提取存在于old.txt文件中的唯一域。简而言之,我想提取仅存在于new.txt文件中的域。 import difflib
with open('new.txt', 'r') as newfile:
with open('old.txt', 'r') as oldfile:
with open('uniq.txt&