前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则

Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则

作者头像
Python小屋屋主
发布2020-06-19 11:12:58
3.4K0
发布2020-06-19 11:12:58
举报
文章被收录于专栏:Python小屋Python小屋

问题描述:

所谓数据脱敏,是指对个人的学号、姓名、身份证号、银行账号、电话号码、家庭住址、工商注册号、纳税人识别号等敏感信息进行隐藏、随机化或删除,防止在数据交换或公开场合演示时泄露隐私信息,是数据处理时经常谈到的一个概念,也是大数据伦理学中需要考虑的一个重要内容。不同的业务类型、数据和使用场景中,敏感数据的定义是变化的,某个信息在一个场景下是敏感的需要脱敏处理而在另一个场景中必须保留原始数据是正常的。

本文以学生考试数据为例,学生在线机考(后台发送“小屋刷题”可以下载刷题和考试软件)结束后导出的原始数据中包含学号、姓名等个人信息,在某些场合下使用这些数据时,截图需要打上马赛克,或者替换原始数据中的这两个信息进行脱敏,原始数据格式如下:

在原始数据中,每个学生的考试数据有很多条,脱敏处理后这些数据的学号和姓名被随机化,但仍需要保证是同一个学生的数据,处理后数据格式如下:

参考代码1(openpyxl):

参考代码2(pandas):

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据脱敏
数据脱敏(Data Masking,DMask)是一款敏感数据脱敏与水印标记工具,可对数据系统中的敏感信息进行脱敏处理并在泄漏时提供追溯依据,为企业数据共享、迁移、分发提供安全保护措施。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档