前言
许多专业人士希望利用在线AI提升工作效率,但又担心敏感文档的数据安全问题。直接在本地部署大型AI模型目前仍面临成本和易用性的挑战。
为此,我们开发了这款本地文档智能脱敏工具。新版本无需复杂安装,解压即用!它的核心目标是在文档离开您的计算机之前,通过本地的轻量级AI模型结合灵活的规则(包括v0.5.0新增的精细化管理和自定义正则),自动识别并处理其中的敏感信息。此外,还提供了可选的文档处理增强模块,以支持更多文件格式。这使您能够更安心地将脱敏后的文档提交给在线AI服务进行分析或处理。
核心流程:本地处理(导入/粘贴 -> 智能脱敏)-> 安全利用在线AI -> 获取结果 -> 本地一键还原。
主要功能 (v0.5.0)
•核心脱敏:
•智能识别:结合轻量本地AI与规则,自动识别并替换人名、地名、机构、联系方式、证件号等敏感信息为__MASKED_{type}_{uuid}__占位符。
•精细化管理:支持通过勾选启用/禁用单个脱敏词,按类型批量启用/禁用,以及搜索脱敏词。
•自定义规则:支持添加自定义敏感词及替换值,并新增支持自定义正则表达式脱敏规则。
•快速添加:支持在文本框中选中文字后,右键快速添加为自定义脱敏词。
•脱敏一致性:同一敏感信息在不同文档中会被替换为相同的占位符,方便处理关联文档。
•一键还原:将在在线AI处理后的文本粘贴回来,即可快速恢复原始信息。
•[可选] 文档处理增强:通过安装增强模块,可支持 PDF (含扫描件)、DOCX、DOC 等格式直接输入并转换为 Markdown。
重要提示
•首次运行:解压后首次运行,会自动弹出模型管理界面,请点击下载实体识别模型(约 300MB+)。下载完成后即可使用核心脱敏功能。
•[可选] 增强模块模型:如需处理文档(PDF/Word等),请通过主界面左上角菜单安装“文档识别增强模块”,并根据提示下载相应模型(约 5GB+)。
•处理速度:直接传入文档或者粘贴文本进行脱敏速度最快。使用文档处理增强模块处理文件可能耗时较长。
•硬件建议:推荐在8GB 内存及以上的电脑运行。
•版本说明:当前版本v0.5.0。
快速上手 (v0.5.0)
1. 获取工具
• 夸克网盘: https://pan.quark.cn/s/f630b3d7229e
• Gitee: https://gitee.com/higher-farther/Local_Document_AI_Desensitization_Tool
• GitHub: https://github.com/NextDoorLaoHuang-HF/Local_Document_AI_Desensitization_Tool
• 下载完成后,在本地选择合适位置解压即可。
2. 首次运行与模型下载
•Windows用户:直接双击解压后文件夹内的文档脱敏工具.exe
•macOS用户:直接双击解压后文件夹内的文档脱敏工具
•首次运行:
• 程序会自动弹出模型管理窗口。
• 请在此窗口中找到实体识别模型 (NER Model)(约 300MB+),点击下载按钮。
•
模型管理界面示意图
• 等待模型下载完成。
• 下载完成后,关闭模型管理窗口,主程序界面即可正常使用。
3. [可选] 安装文档处理增强模块
• 如果您需要直接处理 扫描版PDF或布局复杂的PDF、、Word、PPT、图片等文件,可以安装此可选模块。
• 在主界面左上角菜单栏,点击并勾选增强模块->文档识别增强模块。
• 在弹出的窗口点击使用 uv 进行一键安装
。
• 安装完成后,会再次弹出模型管理窗口,请下载显示“未安装”的模型 (约 5GB+)。
• 如需通过增强模块处理word、ppt等Office文件,需要手动安装LibreOffice软件。
• LibreOffice: https://zh-cn.libreoffice.org/
4. 使用说明
主界面
首页
• 默认使用"文件传入"方式
• 可切换为"文本输入"直接粘贴文本
• 文档处理:如果使用文档处理增强模块,可能需要等待一段时间;不使用增强模块,处理速度较快
• 文档处理完成后,需要选择需要应用的脱敏词,点击“执行脱敏”
• 脱敏完成后:
处理完成
• 可一键复制到剪贴板
• 可保存为文件
脱敏词管理 (新)
•启用/禁用:通过勾选列表中的复选框,可以启用或禁用单个脱敏词或正则表达式规则。
•按类型筛选:在“实体类型”处点击鼠标右键,在弹出窗口选择类型标签(如 PER, LOC, ORG 等)可以批量启用或禁用该类型的所有默认规则。
•添加自定义词:点击“添加自定义词”按钮,输入敏感词和替换值。
•添加正则表达式:点击“添加正则规则”按钮,输入正则表达式和类型值。
•右键快速添加:在左侧文本输入框中选中需要脱敏的文本,单击右键,选择“添加为自定义脱敏词”,即可快速添加。
结语
这款开源工具希望能为关注数据安全又希望拥抱AI的您提供一个实用选择。我们期待您的试用与宝贵反馈,共同完善它!
反馈、共创微信群:
领取专属 10元无门槛券
私享最新 技术干货