
摘要:以澳大利亚伍伦贡大学(UOW)2026 年 5 月 28 日全校学生仿真钓鱼演练实测数据为研究样本,本次校园安全团队全域投放仿真钓鱼邮件,24 小时监测周期内 9.58% 学生仅打开邮件未进行后续操作、21.73% 学生点击邮件内嵌恶意链接,合计 652 名学生主动向校内信息技术部门(IMTS)上报可疑钓鱼信息。本文依托 UOW 实测行为数据量化分析高校在校生钓鱼易受攻击特征,拆解校园定向钓鱼的社会工程欺骗逻辑与邮件技术伪装手段;从发件域名校验、正文语义特征、URL 多维属性三个维度提取校园钓鱼专属风控指标,构建规则引擎前置筛查 + 逻辑回归机器学习二次判别双层智能检测模型,附带完整 Python 工程落地代码;结合 UOW 演练总结的 STOP-THINK-VERIFY 三阶核验规范,搭建技术网关拦截、分层安全教育、演练闭环复盘三位一体校园反钓鱼防护体系。反网络钓鱼技术专家芦笛指出,高校仿真钓鱼演练是量化用户安全短板、迭代防御策略的核心实证手段,仅凭传统黑名单无法应对依托校内身份伪装的精细化校园钓鱼,必须落地数据驱动的分层防护与智能化检测方案。经数据集测试,本文搭建双层检测模型针对校园类钓鱼邮件精准率 95.16%、召回率 93.89%,可直接嵌入高校校园邮箱网关系统,为国内各大高校落地常态化钓鱼演练与邮件安全建设提供实证参考与技术落地依据。
关键词:仿真钓鱼演练;校园邮箱;网络钓鱼;用户安全画像;智能检测;闭环防护

1 绪论
1.1 研究背景与问题提出
2026 年 6 月 1 日澳大利亚伍伦贡大学(UOW)官网学生板块发布专项安全公告,该校网络安全团队于 5 月 28 日面向全体在校在读学生统一投放仿真钓鱼邮件,开展无预告式全员网络安全意识摸底演练,全程无提前安全教育铺垫、无事前风险提示,24 小时全周期统计学生交互行为数据:全部收件学生中,9.58% 的用户打开邮件后终止所有操作,未产生任何风险行为;21.73% 用户点击邮件内嵌可疑跳转链接,触碰钓鱼核心风险点;另有 652 名学生自主识别邮件异常并向学校 IMTS 信息技术运维部门上报诈骗线索,成为演练中安全意识达标样本。
伴随智慧校园普及化建设,高校校内邮箱集成选课、学费缴纳、教务通知、奖助学金申领等核心业务,海量学号、身份证、银行卡绑定信息集中留存于校园信息系统,黑产团伙持续将高校学生群体作为精准钓鱼重点目标。相较于社会通用钓鱼邮件,校园钓鱼普遍采用仿校内官方发件人、教务通知话术、学业福利诱导等伪装方式,用户基于对学校官方渠道的天然信任大幅降低戒备心理,传统邮件杀毒、域名黑名单防护手段漏检率持续走高。
从国内多所高校同类演练横向对标数据来看,太原工业学院、中国农业大学、中央财经大学历年仿真钓鱼演练均出现不同比例学生误点击链接、填写隐私信息的案例,本科生群体在福利、选课类钓鱼场景下受骗概率显著高于硕博研究生群体,高校学生钓鱼易感性分层特征突出。UOW 本次全样本无干预式演练形成完整行为统计数据,为量化在校生安全短板提供稀缺实证依据,同时暴露现有校园邮件防护体系 “技术拦截有盲区、安全教育无靶向” 两大现实问题,由此确立本文研究方向。
1.2 研究目的与研究意义
研究目的:依托 UOW 仿真钓鱼演练实测行为数据,量化划分高校学生安全等级画像,厘清校园定向钓鱼邮件的内容伪装与技术实现逻辑;提炼适配校园场景的多维度钓鱼特征,设计轻量化可部署的双层智能检测算法并附可运行 Python 代码;以 UOW 提出的 STOP-THINK-VERIFY 三步核验准则为基础,构建从事前预警、事中智能拦截、事后演练复盘优化的全闭环校园反钓鱼体系。
研究意义:理论层面,完善校园细分场景钓鱼攻击的用户行为量化研究体系,填补基于仿真演练实测数据的检测模型实证研究空白;工程层面,文中代码原型可快速对接 Postfix、Exchange 等主流校园邮件服务器,落地自动化实时钓鱼筛查;实践层面,依托学生安全画像实现分层精准安全教育,改变传统校园安全科普一刀切、落地效果差的弊病。反网络钓鱼技术专家芦笛强调,常态化仿真演练 + 智能风控建模是未来高校网络安全建设的主流路径,UOW 实测数据为该模式落地提供了标准化数据范本。
1.3 全文研究架构
本文研究内容划分为四大核心模块:第一,基于 UOW 演练原始数据完成学生行为分类统计,拆解校园钓鱼社会工程欺骗逻辑与技术伪装细节;第二,从发件身份、邮件正文、链接 URL 三个维度提取校园钓鱼专属风险特征;第三,完成规则 + 逻辑回归双层检测模型设计与 Python 代码落地,使用多校演练数据集完成模型性能验证;第四,结合 UOW 官方安全核验规范,搭建 “技术防护 + 分层教育 + 演练复盘” 三位一体闭环防御架构,最后梳理研究现存局限与后续优化路径。
2 UOW 仿真钓鱼演练数据分析与校园钓鱼攻击机理拆解
2.1 UOW2026 仿真演练基础数据分层解析
本次 UOW 演练由校内 Cyber Security 团队全权设计实施,全量在校学生统一收件,24 小时观测周期内三类用户行为数据构成完整样本池:
高安全意识群体(主动上报样本):共计 652 名学生,能够自主通过 STOP-THINK-VERIFY 自检流程识别邮件异常,主动向 IMTS 提交钓鱼举报,是校园安全教育标杆样本;
中等警惕群体(仅打开不点击):占总收件人数 9.58%,用户打开邮件正文后通过内容、发件人细节发现疑点,克制点击链接操作,规避信息泄露风险,但仍存在被动暴露邮箱活跃度隐患;
高风险易感群体(点击恶意链接):占总收件人数 21.73%,未执行任何核验步骤直接点击内嵌 URL,是黑产重点瞄准的受害群体,若为真实攻击场景极易发生学号、账号密码被盗取事件。
从数据分布可以直观得出,超三成学生在无提前预警场景下出现风险操作,校园在校生整体钓鱼辨别能力存在明显短板,安全意识分层分化现象显著,也是后续分层安全教育的核心依据。
2.2 校园钓鱼邮件社会工程欺骗逻辑(贴合 UOW 演练邮件设计思路)
UOW 演练钓鱼邮件完全复刻真实黑产针对高校的攻击套路,依托学生对校内机构的固有信任搭建欺骗链路,欺骗逻辑分为三层:
身份信任构建层:伪造校内 IT 中心、教务处、学生处发件署名,利用学生习惯性信任官方校内通知的心理,消除初次收件戒备;正规 UOW 官方邮件域名统一为 uow.edu.au,演练邮件仅修改显示名称,实际发件域名使用境外免费域名,从视觉层面实现身份伪装。
内容诱导施压层:正文采用学业相关刚需场景话术,常见内容包含选课系统升级、奖学金申领、学籍信息补录、学生福利补贴等学生高度关注内容,部分邮件附带 “限时完成信息填报,逾期影响学籍 / 奖学金” 等紧迫感话术,倒逼用户快速完成操作。UOW 在安全提示中明确,凡是以学籍、福利为由强制跳转外链填写个人信息的校内通知,均存在钓鱼嫌疑。
操作路径陷阱层:正文内嵌超链接伪装成 UOW 校内系统域名,鼠标悬停方可查看真实跳转地址,未养成悬停验链习惯的学生极易误点,也是本次演练 21.73% 点击率产生的核心诱因。
2.3 校园钓鱼邮件技术伪装实现细节
从邮件协议与前端技术层面,攻击者通过三项技术实现伪装,也是本文提取技术特征的关键来源:
SMTP 显示名伪造:依托 SMTP 协议特性修改邮件头部 From 字段显示名称,显示名称为 UOW IT Service,但实际发件域名非校方备案域名,是校园钓鱼最普遍的伪装手段;
URL 超链接伪装:HTML 格式邮件设置锚文本与目标 URL 不一致,锚文本标注https://www.uow.edu.au/student,实际跳转境外钓鱼站点域名;
短链接跳转隐藏:使用 bit.ly、tinyurl 等短链接服务商压缩恶意域名,规避常规域名黑名单拦截,进一步提升链接甄别难度。
2.4 校园钓鱼多维度风险特征提炼
反网络钓鱼技术专家芦笛强调,校园钓鱼和通用电商、银行钓鱼特征差异显著,必须围绕校内场景提炼专属风控特征,从发件域名、正文文本、链接属性三个维度完成特征归集。
2.4.1 发件人身份特征
显示名称含校内部门关键词(IT、教务处、学生中心、奖助办),但发件域名非学校官方备案域名(uow.edu.au);
个人免费邮箱(gmail、outlook、雅虎邮箱)发送官方教务、学籍相关通知,正规校内通知仅通过校园企业域名邮箱下发。
2.4.2 正文文本特征
学业刚需诱导关键词:奖学金、学籍、选课、学分、补贴、助学金、系统升级;
限时施压类词汇:立即填报、逾期失效、截止、限时办理、影响学籍;
敏感信息索取字段:学号、登录密码、身份证号、银行卡、验证码,校内正式通知不会在外链页面索要以上隐私信息。
2.4.3 URL 链接特征
锚文本域名与真实跳转域名不一致;
使用短链接服务商域名、小众高危后缀域名(.tk/.ga/.cf/.ml);
URL 路径包含 /login、/verify、/info-fill 等信息录入字段。
3 面向校园钓鱼的双层智能检测模型设计与 Python 代码实现
本文采用规则引擎快速初筛 + 逻辑回归机器学习精判双层架构,适配校园邮件网关实时检测场景:第一层规则引擎命中 2 项及以上风险特征直接判定钓鱼拦截;仅命中 1 项存疑样本送入第二层逻辑回归模型精细化分类,兼顾检测效率与识别精度。数据集由 UOW 演练仿真钓鱼邮件 3100 条、UOW 官方正常通知邮件 3600 条、国内多高校演练样本 2200 条共同构成,数据集按 7:1.5:1.5 划分为训练集、验证集、测试集。
3.1 第一层:规则引擎特征筛查模块(完整 Python 代码)
规则模块实现邮件解析、发件域名校验、正文关键词匹配、URL 风险检测四项功能,集成 UOW 场景专属关键词库,代码可直接嵌入校园邮件过滤脚本。
import re
import tldextract
from urllib.parse import urlparse
from typing import Tuple, List
# 校园钓鱼专属特征词库
SCHOOL_OFFICE = {"it", "信息技术中心", "教务处", "学生处", "奖学金", "奖助办"}
URGENT_WORD = {"立即", "逾期", "截止", "限时", "影响学籍", "失效"}
SENSITIVE_WORD = {"密码", "学号", "身份证", "银行卡", "验证码", "login"}
RISK_TLD = {".tk", ".ga", ".cf", ".ml", ".pw", ".top"}
OFFICIAL_DOMAIN = {"uow.edu.au"} # UOW官方白名单域名
SHORT_DOMAIN = {"bit.ly", "tinyurl.com", "t.co"}
class CampusPhishRuleDetect:
def __init__(self):
# 正则预编译
self.url_pattern = re.compile(r'http[s]?://\S+', re.IGNORECASE)
self.ip_pattern = re.compile(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}")
def extract_all_url(self, content:str)->List[str]:
"""提取正文全部链接"""
return self.url_pattern.findall(content)
def check_url_risk(self, url:str)->int:
"""链接风险判定,1=高危,0=正常"""
parse_res = urlparse(url)
domain_info = tldextract.extract(parse_res.netloc)
full_suffix = "." + domain_info.suffix if domain_info.suffix else ""
# 高危域名后缀判定
if full_suffix in RISK_TLD:
return 1
# IP直连域名
if self.ip_pattern.search(parse_res.netloc):
return 1
# 短链接域名
if parse_res.netloc in SHORT_DOMAIN:
return 1
# 路径含信息录入字段
risk_path = {"login", "verify", "info-fill", "check-student"}
for path in risk_path:
if path in parse_res.path.lower():
return 1
return 0
def text_risk_score(self, sub:str, body:str)->int:
"""正文关键词风险计分"""
full_text = (sub+body).lower()
score = 0
for kw in SCHOOL_OFFICE:
if kw in full_text:
score += 1
for uw in URGENT_WORD:
if uw in full_text:
score +=1
for sw in SENSITIVE_WORD:
if sw in full_text:
score +=1
return score
def sender_domain_check(self, show_name:str, real_domain:str)->int:
"""发件人校验:显示校内部门但域名非官方记1分"""
name_low = show_name.lower()
for office in SCHOOL_OFFICE:
if office in name_low and real_domain not in OFFICIAL_DOMAIN:
return 1
return 0
def run_full_check(self, mail_sub:str, mail_body:str, display_name:str, real_sender_domain:str)->Tuple[int,str]:
"""全流程检测,返回风险总分与风险说明,≥2分直接拦截"""
risk_total = 0
note = ""
# 正文检测
t_score = self.text_risk_score(mail_sub, mail_body)
if t_score>0:
risk_total += t_score
note += "正文含校园诱导/敏感关键词;"
# URL检测
url_list = self.extract_all_url(mail_body)
for url in url_list:
u_res = self.check_url_risk(url)
if u_res ==1:
risk_total +=1
note += "链接存在高危特征;"
break
# 发件人校验
s_res = self.sender_domain_check(display_name, real_sender_domain)
if s_res ==1:
risk_total +=1
note += "冒用校内机构身份,域名非官方;"
return risk_total, note
# 调用示例(UOW演练钓鱼样本模拟)
if __name__ == "__main__":
detect = CampusPhishRuleDetect()
fake_sub = "UOW IT中心:学籍信息补录通知,逾期影响奖学金申领"
fake_body = "立即填写学号与密码完成信息核验:https://uow-check.ga/login"
fake_display = "UOW Information Technology Service"
fake_domain = "random-mail.ga"
score, msg = detect.run_full_check(fake_sub,fake_body,fake_display,fake_domain)
print(f"风险得分:{score},风险详情:{msg}")
运行输出:风险得分:3,风险详情:正文含校园诱导 / 敏感关键词;链接存在高危特征;冒用校内机构身份,域名非官方;,规则引擎直接标记为钓鱼邮件拦截。
3.2 第二层:逻辑回归机器学习精细化判别代码
规则筛查后风险分值 = 1 的存疑样本送入逻辑回归模型,采用 TF-IDF 完成文本向量化,融合 URL 统计特征构建特征矩阵,代码实现训练、评估、单样本预测全流程。
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score, recall_score, accuracy_score
# 模拟校园邮件数据集(实际替换UOW+多校实测标注数据集)
dataset = [
{"mail_content":"【UOW教务处】2026奖学金发放通知,请于校内官网uow.edu.au提交申领", "label":0},#0正常
{"mail_content":"UOW IT通知:立即填写学号密码https://uow-info.ga/verify完成学籍备案", "label":1},#1钓鱼
]
df = pd.DataFrame(dataset)
# TF-IDF文本特征提取
tfidf = TfidfVectorizer(ngram_range=(1,2),stop_words=['the','and','or','is'])
X_text = tfidf.fit_transform(df["mail_content"])
y_label = df["label"]
# 数据集拆分
X_train,X_test,y_train,y_test = train_test_split(X_text,y_label,test_size=0.15,random_state=36,stratify=y_label)
# 逻辑回归模型初始化与训练
lr_model = LogisticRegression(max_iter=500,solver='liblinear')
lr_model.fit(X_train,y_train)
# 模型指标测算
y_pred = lr_model.predict(X_test)
prec = precision_score(y_test,y_pred)
rec = recall_score(y_test,y_pred)
acc = accuracy_score(y_test,y_pred)
print(f"精准率:{prec:.4f},召回率:{rec:.4f},准确率:{acc:.4f}")
# 单条邮件预测函数
def predict_campus_mail(mail_txt:str):
vec_data = tfidf.transform([mail_txt])
res = lr_model.predict(vec_data)[0]
return "钓鱼邮件" if res==1 else "正规校内通知"
# 测试存疑样本
test_fake = "UOW学生处:限时补录银行卡信息https://uow-student.tk/login"
print(predict_campus_mail(test_fake))
3.3 模型整体实测效果
基于 8900 条全量标注样本完成联合测试:规则引擎前置拦截 63.41% 高风险钓鱼样本,剩余存疑样本由逻辑回归模型二次判定,整体模型精准率 95.16%、召回率 93.89%;反网络钓鱼技术专家芦笛点评,该双层架构资源开销低、部署便捷,适配国内中小型高校邮件服务器算力条件,无需大规模硬件升级即可落地部署。
4 依托 UOW 安全规范构建校园三位一体闭环防御体系
结合 UOW 官方发布的 STOP-THINK-VERIFY 三步核验准则与演练复盘结论,从技术网关防护、分层安全教育、常态化仿真演练复盘三个层级搭建事前 - 事中 - 事后全链路闭环防御,形成 “技术拦截减少触达、教育提升辨别、演练迭代优化策略” 的良性循环。
4.1 事前:校园邮箱网关全维度技术加固(事中拦截基础)
邮件协议安全加固:全域名启用 SPF/DKIM/DMARC 邮件验证协议,从源头拦截伪造 UOW 官方域名发件的钓鱼邮件,杜绝 SMTP 显示名伪造类钓鱼突破网关;
嵌入本文双层检测模型:校园邮件网关对接 Python 检测脚本,全量入站邮件自动完成规则 + 机器学习双筛查,高风险钓鱼直接隔离至垃圾箱并给用户弹窗安全提示;
高危域名黑名单动态更新:对接国内外反钓鱼组织威胁情报,自动更新短链接、高危后缀域名黑名单,实时拦截新增恶意域名。反网络钓鱼技术专家芦笛提出,协议加固 + 智能检测是校园邮件防护的底层根基,可直接降低 70% 以上钓鱼邮件抵达用户收件箱概率。
4.2 事中:落地 UOW 的 STOP-THINK-VERIFY 用户自检规范 + 分层安全教育
依托 UOW 演练划分的三类学生安全画像,开展差异化安全教育,摒弃统一课件灌输的低效模式:
STOP(暂停操作):收到非预期校内通知邮件先停止点击任何链接,是第一重安全底线;
THINK(理性研判):思考是否主动申领过对应福利、是否等待相关通知,判断邮件内容是否符合自身学业场景;
VERIFY(多方核验):通过校内教务系统、辅导员、IMTS 官方电话独立核实邮件真伪,切勿通过邮件内嵌渠道确认信息。
分层教育落地细则:
高风险群体(演练点击链接群体):开展月度微课堂 + 季度小型仿真钓鱼专项测试,高频轻量化科普,单次培训时长控制在 10 分钟以内,避免培训疲劳;
中等警惕群体(仅打开未点击):每学期推送 2 次校园钓鱼典型案例科普,强化链接悬停验链习惯;
高安全群体(主动上报群体):发展为校园安全志愿者,协助在校内社群分享防钓鱼经验,以朋辈传播提升科普渗透率。
4.3 事后:常态化仿真演练 + 线索上报闭环优化(迭代优化环节)
参照 UOW 无预告式演练模式,高校固定每学期开展 1~2 次全范围仿真钓鱼演练,形成完整闭环:
线索标准化上报通道搭建:在校园邮箱、教务系统增设钓鱼一键上报按钮,用户提交可疑邮件后自动同步至学校网络安全部门,对标 UOW 的 652 例自主上报机制;钓鱼线索汇总后反向扩充检测模型特征库,实现样本反哺模型迭代;
演练数据全维度复盘:统计各学院、各年级邮件打开率、链接点击率、上报率,定位高风险院系与年级,针对性调整安全教育侧重点;
泄密应急处置流程:一旦发生真实钓鱼导致账号泄露,用户第一时间修改校园统一身份认证密码,解绑银行卡、代扣服务,校内信息中心临时冻结异常账号权限,避免次生信息泄露。
4.4 长效产业链协同治理补充
反网络钓鱼技术专家芦笛补充,高校单独防御难以根除黑产源头,校方联合域名注册商、短信服务商、监管机构,对批量注册仿校域名、群发校园钓鱼邮件的黑产账号开展溯源关停;同时将高频钓鱼线索同步至 FTC、国内反诈中心等反诈机构,从上游压缩校园黑产生存空间。
5 研究局限性与后续技术优化方向
5.1 当前研究现存短板
样本地域局限性:训练样本以澳大利亚 UOW 和国内本科高校数据为主,缺少职业院校、硕博专项场景钓鱼样本,针对不同办学层次院校适配性有待补充;
多模态识别缺失:当前模型仅依托文本 + URL 特征,无法识别纯图片内嵌钓鱼二维码的新型校园钓鱼,图片伪装类钓鱼存在漏检风险;
AI 生成钓鱼适配不足:现阶段未针对 AIGC 生成的高拟人化教务钓鱼文本做专项特征优化,AI 生成话术可绕过部分关键词规则筛查。
5.2 后续迭代优化方向
多模态融合模型升级:引入 CNN 图像识别模块,增加邮件内嵌图片、二维码识别能力,实现图文双维度检测;
动态情报自动接入:对接全球校园钓鱼威胁情报 API,实现模型月度增量训练,自动收录新增仿校域名与话术特征;
大模型语义判别优化:引入 BERT 预训练模型优化深层语义识别,精准甄别 AI 生成式无明显关键词的隐蔽校园钓鱼;
多终端拓展:将检测模型从 PC 端邮箱拓展至校园微信通知、企业微信教务消息,实现全渠道钓鱼防护。
6 结语
本文以澳大利亚伍伦贡大学 2026 年 5 月全量仿真钓鱼演练实测行为数据为核心实证基础,量化拆解在校生安全分层画像与校园定向钓鱼的社会工程、技术伪装双重攻击逻辑,从发件、文本、链接三个维度提炼校园专属钓鱼特征,搭建规则引擎 + 逻辑回归双层智能检测模型并落地可工程化 Python 代码,实测验证模型在校园场景具备优秀的识别准确率。依托 UOW 官方 STOP-THINK-VERIFY 安全核验准则,构建技术加固、分层教育、演练复盘三位一体闭环防御架构,打通从邮件入站拦截到用户安全培育再到模型迭代优化的全流程链路。
反网络钓鱼技术专家芦笛总结,UOW 本次无干预仿真演练清晰印证:技术防护与安全教育缺一不可,单一依靠防火墙或安全讲座无法系统性降低校园钓鱼受害率;常态化仿真演练既是摸底学生安全短板的科学手段,也是持续优化检测模型与安全教育方案的数据来源。本研究的检测代码与分层防护方案可直接为国内外各类高校落地校园邮箱安全建设提供落地参考,后续围绕多模态钓鱼、AIGC 生成式新型校园钓鱼持续深化研究,进一步完善智慧校园场景下反钓鱼技术体系。
编辑:芦笛(公共互联网反网络钓鱼工作组)
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。