前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Octopii:一款AI驱动的个人身份信息(PII)扫描工具

Octopii:一款AI驱动的个人身份信息(PII)扫描工具

作者头像
FB客服
发布2023-03-29 15:54:49
3550
发布2023-03-29 15:54:49
举报
文章被收录于专栏:FreeBuf

 关于Octopii 

Octopii是一款功能强大的AI驱动的个人身份信息(PII)扫描工具,可以帮助广大研究人员在一个目录中扫描各种和个人身份信息(PII)相关的图片资源,比如说身份*证信息、护照、照片和签名等等。

 工作机制 

Octopii使用了Tesseract的OCR和Keras的CNN模块来检测各种形式的可能会发生泄漏面临安全风险的个人身份信息。该工具通过下列步骤实现其功能:

1、导入和清理图片资源

图像通过OpenCV导入,并进行清理、去扭斜和旋转以进行扫描。

2、执行图片分类

扫描图像的特征,如ISO/IEC 7810规格、颜色、文本位置、照片、全息图等,这一步通过传递图像并将其与训练模型进行比较来完成。

3、光学字符识别(OCR)

作为一种最终验证方法,扫描图像中的某些字符串,以验证模型的准确性。

扫描的准确性可以通过输出中的置信分数来确定。如果满足上述所有条件,则返回100.0分。

为了训练模型,还可以将数据输入model_generator.py脚本并使用新改进的h5文件来进行数据处理。

 工具下载 

由于该工具基于Python 3开发,因此广大研究人员首先需要在本地设备上安装并配置好Python 3环境。接下来,使用下列命令将该项目源码克隆至本地:

代码语言:javascript
复制
git clone https://github.com/redhuntlabs/Octopii.git

(向右滑动、查看更多)

代码语言:javascript
复制

接下来,使用pip命令和项目提供的requirements.txt文件来安装该项目所需的依赖组件:

代码语言:javascript
复制
cd Octopiipip install -r requirements.txt

然后使用下列命令安装Tesseract帮助工具(Ubuntu/Debian):

代码语言:javascript
复制
sudo apt install tesseract-ocr -y
代码语言:javascript
复制

安装完成后,可以使用下列命令运行Octopii:

代码语言:javascript
复制
python3 octopii.py <location to scan> <additional flags>
代码语言:javascript
复制

(向右滑动、查看更多)

Octopii当前支持本地扫描和S3目录扫描,可以通过输入目标URL地址或路径来进行扫描。比如说:

代码语言:javascript
复制
python3 octopii.py pii_list/
代码语言:javascript
复制

 工具使用样例 

代码语言:javascript
复制
owais@artemis ~ $ python3 octopii.py pii_listNot a valid image format: pii_list/aadhaar/aadhaar-8.gif[    {        "asset_type": "Bank",        "confidence": 100.0,        "file_name": "passbook",        "extension": "jpeg",        "path": "pii_list/bank/passbook.jpeg"    },    {        "asset_type": "Photo",        "confidence": 99.98,        "file_name": "IMG-20200331-WA0037",        "extension": "jpg",        "path": "pii_list/photos/IMG-20200331-WA0037.jpg"    },    {        "asset_type": "PAN",        "confidence": 100.0,        "file_name": "pan-7",        "extension": "jpg",        "path": "pii_list/pan/pan-7.jpg"    },    {        "asset_type": "Aadhaar",        "confidence": 97.31,        "file_name": "aadhaar-14",        "extension": "jpg",        "path": "pii_list/aadhaar/aadhaar-14.jpg"    }](向右滑动、查看更多)

 许可证协议 

本项目的开发与发布遵循MIT开源许可证协议。

 项目地址 

Octopii:https://github.com/redhuntlabs/Octopii

精彩推荐

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 FreeBuf 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  •  关于Octopii 
  •  工作机制 
    • 1、导入和清理图片资源
      • 2、执行图片分类
        • 3、光学字符识别(OCR)
        •  工具下载 
        • (向右滑动、查看更多)
        • (向右滑动、查看更多)
        •  工具使用样例 
        •  许可证协议 
        •  项目地址 
        相关产品与服务
        AI 应用产品
        文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档