数据分类与敏感数据识别是数据合规管理的基础环节,其核心目标是通过对数据的分类管理(明确数据的业务属性与用途)和敏感数据识别(定位需重点保护的高风险数据),为后续数据安全防护、合规使用提供精准依据。结合2024-2025年最新法律法规(如《数据安全法》《个人信息保护法》)、国家标准(如GB/T 43697-2024《数据安全技术 数据分类分级规则》)及行业实践(如金融、政务、运营商),以下从核心逻辑、实施步骤、技术方法、行业实践四个维度,详细阐述数据分类与敏感数据识别的具体路径:
一、数据分类:构建“业务-安全”双维分类框架
数据分类是将数据按业务属性与安全需求划分层级的过程,其核心逻辑是“先明确数据的业务用途,再匹配安全保护要求”。根据GB/T 43697-2024《数据安全技术 数据分类分级规则》及行业实践,数据分类可分为“行业领域分类→业务属性分类”两步:
1. 第一步:行业领域分类——明确数据的“归属赛道”
行业领域分类是数据分类的顶层框架,用于界定数据的行业属性(如金融、医疗、政务、工业等),为后续匹配行业-specific安全规则奠定基础。
- 依据:GB/T 43697-2024规定“采用‘先行业领域分类、再业务属性分类’的思路”;各行业主管部门也出台了具体分类指南(如《金融数据安全 数据安全分级指南》JR/T 0197-2020、《卫生健康行业数据分类分级指南》)。
- 示例:
- 金融行业:可分为“客户数据”(如个人身份、账户信息)、“交易数据”(如支付记录、理财订单)、“运营数据”(如内部流程、风控模型);
- 医疗行业:可分为“患者诊疗数据”(如病历、诊断结果)、“公共卫生数据”(如疫情监测、疫苗接种)、“科研数据”(如临床试验、基因序列);
- 政务行业:可分为“基础政务数据”(如人口、法人、地理信息)、“公共服务数据”(如社保、教育、医疗)、“监管数据”(如行政审批、行政处罚)。
2. 第二步:业务属性分类——细化数据的“使用场景”
业务属性分类是在行业领域框架下,按数据的业务用途与特征进一步细分,用于明确数据的管理责任(如哪个部门负责)与使用规则(如是否可共享、如何加密)。
- 依据:GB/T 43697-2024规定“业务属性分类包括业务领域、责任部门、描述对象等多个维度”;武汉市2025年发布的《武汉市公共数据分类分级指南(试行)》将公共数据分为“政务管理数据”“公共服务数据”“社会治理数据”等6个大类,再细分为“统计公报”“社保信息”“交通流量”等中类。
- 示例:
- 金融行业的“客户数据”可细分为“基本信息”(如姓名、身份证号)、“财务信息”(如收入、资产)、“行为信息”(如交易习惯、浏览记录);
- 医疗行业的“患者诊疗数据”可细分为“门诊数据”(如挂号记录、处方)、“住院数据”(如病历、检查报告)、“手术数据”(如手术记录、麻醉信息)。
3. 数据分类的实施步骤
- 第一步:梳理数据资产:通过数据资产发现工具(如亿信华辰数据治理平台、阿里云数据地图)扫描企业内部数据库(如MySQL、Oracle)、文件系统(如NAS、对象存储),识别所有数据项(如字段、表、文件),形成“数据资产清单”。
- 第二步:制定分类规则:结合行业规范(如JR/T 0197-2020)与企业实际,制定《数据分类指南》,明确“行业领域→业务属性”的分类层级(如“金融→客户数据→基本信息”)。
- 第三步:实施分类标注:通过自动化工具+人工审核的方式,对数据资产清单中的每个数据项进行分类标注(如在数据库表中添加“数据类别”字段,值为“金融→客户数据→基本信息”)。
- 第四步:动态更新:随着业务发展(如新增跨境业务)或法规更新(如《数据安全法实施条例》出台),定期 review 数据分类结果,调整分类规则(如新增“跨境数据”类别)。
二、敏感数据识别:定位“高风险”数据,实施精准保护
敏感数据是指一旦泄露或非法使用,容易导致自然人的人格尊严、人身安全、财产安全受到侵害的数据(《网络安全标准实践指南——敏感个人信息识别指南》2024年)。其识别核心是“结合法律规定与业务场景,评估数据的‘敏感性’”。
1. 敏感数据的“法定范围”:以《个人信息保护法》为基础
《个人信息保护法》第二十八条明确规定,敏感个人信息包括以下八类(需结合具体场景评估):
- 生物识别信息:如人脸、指纹、声纹、虹膜、基因序列(《识别指南》2024年);
- 宗教信仰信息:如个人信仰的宗教、宗教组织职位、宗教活动记录;
- 特定身份信息:如残障人士身份、不适宜公开的职业身份(如缉毒警察);
- 医疗健康信息:如病历、诊断结果、用药记录、基因数据;
- 金融账户信息:如银行账号、支付密码、征信报告、交易流水;
- 行踪轨迹信息:如实时位置、出行路线、住宿记录;
- 不满十四周岁未成年人的个人信息:如姓名、身份证号、照片、学校信息;
- 其他敏感个人信息:如婚姻状况、家庭住址、联系人列表(需结合场景评估,如“联系人列表”若包含大量敏感联系人,可能属于敏感数据)。
2. 敏感数据识别的“技术路径”:规则+AI+人工复核
敏感数据识别的核心挑战是“覆盖海量数据、识别隐性敏感信息”(如“姓名+身份证号+手机号”组合属于敏感数据,但单独字段可能不属于)。技术路径可分为以下三步:
(1)第一步:规则匹配——识别“显性”敏感数据
规则匹配是通过预定义的规则(如正则表达式、关键字、字段名),识别“格式固定、易识别”的敏感数据(如身份证号、银行卡号、手机号)。
- 规则类型:
- 正则表达式:如身份证号(18位,格式为“XXXXXXYYYYMMDDXXX”)、银行卡号(16-19位,以“62”开头的银联卡);
- 关键字匹配:如“身份证号”“银行卡号”“手机号”“病历”“基因序列”;
- 字段名匹配:如数据库表中的“user_id_card”(用户身份证号)、“bank_account”(银行账号)字段。
- 工具支持:通过数据分类分级工具(如腾讯云WeData、星环科技Defensor)内置的“敏感数据规则库”,批量扫描数据资产,识别显性敏感数据。
- 示例:某国有银行通过规则匹配,识别出核心系统中的“身份证号”“银行卡号”“手机号”等字段,准确率达95%。
(2)第二步:AI模型——识别“隐性”敏感数据
AI模型是通过机器学习(如NLP自然语言处理、深度学习),识别“格式不固定、需上下文分析”的隐性敏感数据(如“姓名+身份证号+手机号”组合、“病历中的诊断结果”)。
- 技术原理:
- NLP自然语言处理:通过语义分析,识别文本中的敏感信息(如“患者张三,身份证号:XXXXXXYYYYMMDDXXX,诊断为肺癌”中的“肺癌”属于医疗健康信息);
- 深度学习模型:通过训练大量标注数据(如“敏感数据”与“非敏感数据”的样本),学习敏感数据的特征(如“基因序列”的长度、格式),实现精准识别。
- 工具支持:通过AI驱动的数据分类分级工具(如全知科技知源—AI数据分类分级系统、蚂蚁科技隐语),识别隐性敏感数据。
- 示例:某国有银行部署AI模型后,识别出“姓名+身份证号+手机号”组合(属于“行踪轨迹信息”)、“病历中的诊断结果”(属于“医疗健康信息”)等隐性敏感数据,准确率达97%。
(3)第三步:人工复核——确保“准确性”
人工复核是对规则匹配与AI模型识别的结果进行验证,修正误判(如将“测试数据”误判为“敏感数据”)或漏判(如“未备案的第三方数据接口”中的敏感数据)。
- 实施要求:
- 建立复核机制:由数据安全团队(如DPO)牵头,联合业务部门(如客户服务部、风控部),对识别结果进行抽样复核(如每月复核10%的敏感数据);
- 反馈优化:将复核中发现的问题(如“规则匹配漏判了‘护照号’”)反馈给工具厂商,优化规则库或AI模型(如新增“护照号”的正则表达式)。
- 示例:某运营商通过人工复核,发现“用户位置信息”(属于“行踪轨迹信息”)未被规则匹配识别,于是新增“location”字段名的规则,提升了识别准确率。
3. 敏感数据识别的“关键注意事项”
- 关注“汇聚效应”:多个一般个人信息汇聚后,可能形成敏感数据(如“姓名+手机号+地址”组合,可能用于“人肉搜索”),需评估其整体敏感性(《识别指南》2024年);
- 动态更新:随着业务变化(如新增“跨境数据传输”场景)或法规更新(如《数据安全法实施条例》出台),需重新评估敏感数据的范围(如“跨境传输的用户数据”需升级为敏感数据);
- 结合业务场景:敏感数据的识别需结合业务用途(如“用户位置信息”用于“外卖配送”属于合理使用,但用于“精准营销”可能属于敏感数据)。