前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >钓鱼网站相关数据

钓鱼网站相关数据

作者头像
西西嘛呦
发布2022-05-10 09:23:36
4960
发布2022-05-10 09:23:36
举报

数据一

地址:https://www.kaggle.com/datasets/aman9d/phishing-data?resource=download 数据集说明: Domain: The URL itself. Ranking: Page Ranking isIp: Is there an IP address in the weblink valid: This data is fetched from google's whois API that tells us more about the current status of the URL's registration. activeDuration: Also from whois API. Gives the duration of the time since the registration up until now. urlLen: It is simply the length of the URL is@: If the link has a '@' character then it's value = 1 isredirect: If the link has double dashes, there is a chance that it is a redirect. 1-> multiple dashes present together. haveDash: If there are any dashes in the domain name. domainLen: The length of just the domain name. noOfSubdomain: The number of subdomains preset in the URL. Labels: 0 -> Legitimate website , 1 -> Phishing Link/ Spam Link

数据二

地址:http://shujujishi.com/dataset/04f86672-ed35-483c-99b0-397c8f0f1d79.html 或者 地址:http://sofasofa.io/competition.php?id=10 数据集说明: 训练集中共有10086条样本,预测集中有7000条样本。数据集共有18个变量。注意:变量中含有缺失值。

变量说明:

变量名 解释 contain_IP 网址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。 is_long 网址字符是否过长。1表示网址过长,0表示网址不长。 is_tinyurl 网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址,0表示不是。 contain_at 网址是否包含“@”符号。1表示包含,0表示不包含。 contain_double_slash 网址是否包含“//”符号,该符号用来表示网址跳转。1表示包含,0表示不包含。 contain_dash 网址是否包含“-”符号,该符号经常帮助用来伪装真网站,比如www.my-taobao.com 。 1表示包含,0表示不包含。 contain_subdomain 网址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。 is_SSL 网址是否是https安全链接。1表示包含,0表示不包含。 with_long_history 网址所属的主域名存在的时间。1表示长久,0表示不长久。 contain_icon 网址网页是否有小图标。1表示包含,0表示不包含。 contain_ext_domain 该网页是否加载其他域名下的附件或者网页。1表示包含,0表示不包含。 contain_email_to 该网页是否包含发送邮件的组建。1表示包含,0表示不包含。 allow_right_click 该网页是否允许用户进行右击操作。1表示允许,0表示不允许。 contain_pop_up_windowL 该网页是否包含弹窗。1表示包含,0表示不包含。 contain_Iframe 该网页是否包含Iframe(嵌套网页)。1表示包含,0表示不包含。 has_DNSRecord 网址是否有DNS记录。1表示有,0表示无。 traffic 该网站的流量大小。1表示大,0表示小。 google_rank 该网址在google搜索中的排名。1表示高于同类网站的平均排名,0表示低于同类网站的平均排名。 y 表示网站是否是钓鱼欺诈网站,1表示是,0表示不是。在test.csv中,这是需要被预测的标签;预测时,请提交每个样本为1的概率。

数据三

地址:https://www.datafountain.cn/datasets/5587 数据集说明: 域:URL本身。 排名:页面排名 isIp:网络链接中是否有 有效的IP地址:此数据是从Google的Whois API中获取的,该信息可以告诉我们有关 URL注册当前状态的更多信息。 activeDuration:同样来自whois API。提供自 注册以来到现在为止的时间。 urlLen:只是URL的长度 is @:如果链接具有’@'字符,则其值= 1 isredirect:如果链接具有双破折号,则有可能是重定向。1->多个 破折号一起出现。 haveDash:域名中是否包含破折号。 domainLen:域名的长度。 noOfSubdomain:URL中预设的子域数。 标签:0->合法网站,1->网络钓鱼链接/垃圾邮件链接

数据四

https://github.com/ebubekirbbr/phishing_url_detection/tree/master/dataset/small_dataset

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据一
  • 数据二
  • 数据三
  • 数据四
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档