地址:https://www.kaggle.com/datasets/aman9d/phishing-data?resource=download 数据集说明: Domain: The URL itself. Ranking: Page Ranking isIp: Is there an IP address in the weblink valid: This data is fetched from google's whois API that tells us more about the current status of the URL's registration. activeDuration: Also from whois API. Gives the duration of the time since the registration up until now. urlLen: It is simply the length of the URL is@: If the link has a '@' character then it's value = 1 isredirect: If the link has double dashes, there is a chance that it is a redirect. 1-> multiple dashes present together. haveDash: If there are any dashes in the domain name. domainLen: The length of just the domain name. noOfSubdomain: The number of subdomains preset in the URL. Labels: 0 -> Legitimate website , 1 -> Phishing Link/ Spam Link
地址:http://shujujishi.com/dataset/04f86672-ed35-483c-99b0-397c8f0f1d79.html 或者 地址:http://sofasofa.io/competition.php?id=10 数据集说明: 训练集中共有10086条样本,预测集中有7000条样本。数据集共有18个变量。注意:变量中含有缺失值。
变量说明:
变量名 解释 contain_IP 网址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。 is_long 网址字符是否过长。1表示网址过长,0表示网址不长。 is_tinyurl 网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址,0表示不是。 contain_at 网址是否包含“@”符号。1表示包含,0表示不包含。 contain_double_slash 网址是否包含“//”符号,该符号用来表示网址跳转。1表示包含,0表示不包含。 contain_dash 网址是否包含“-”符号,该符号经常帮助用来伪装真网站,比如www.my-taobao.com 。 1表示包含,0表示不包含。 contain_subdomain 网址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。 is_SSL 网址是否是https安全链接。1表示包含,0表示不包含。 with_long_history 网址所属的主域名存在的时间。1表示长久,0表示不长久。 contain_icon 网址网页是否有小图标。1表示包含,0表示不包含。 contain_ext_domain 该网页是否加载其他域名下的附件或者网页。1表示包含,0表示不包含。 contain_email_to 该网页是否包含发送邮件的组建。1表示包含,0表示不包含。 allow_right_click 该网页是否允许用户进行右击操作。1表示允许,0表示不允许。 contain_pop_up_windowL 该网页是否包含弹窗。1表示包含,0表示不包含。 contain_Iframe 该网页是否包含Iframe(嵌套网页)。1表示包含,0表示不包含。 has_DNSRecord 网址是否有DNS记录。1表示有,0表示无。 traffic 该网站的流量大小。1表示大,0表示小。 google_rank 该网址在google搜索中的排名。1表示高于同类网站的平均排名,0表示低于同类网站的平均排名。 y 表示网站是否是钓鱼欺诈网站,1表示是,0表示不是。在test.csv中,这是需要被预测的标签;预测时,请提交每个样本为1的概率。
地址:https://www.datafountain.cn/datasets/5587 数据集说明: 域:URL本身。 排名:页面排名 isIp:网络链接中是否有 有效的IP地址:此数据是从Google的Whois API中获取的,该信息可以告诉我们有关 URL注册当前状态的更多信息。 activeDuration:同样来自whois API。提供自 注册以来到现在为止的时间。 urlLen:只是URL的长度 is @:如果链接具有’@'字符,则其值= 1 isredirect:如果链接具有双破折号,则有可能是重定向。1->多个 破折号一起出现。 haveDash:域名中是否包含破折号。 domainLen:域名的长度。 noOfSubdomain:URL中预设的子域数。 标签:0->合法网站,1->网络钓鱼链接/垃圾邮件链接
https://github.com/ebubekirbbr/phishing_url_detection/tree/master/dataset/small_dataset