首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【解压即用】本地AI脱敏工具更新,更轻量化的敏感信息处理方案

前言

许多专业人士希望利用在线AI提升工作效率,但又担心敏感文档的数据安全问题。直接在本地部署大型AI模型目前仍面临成本和易用性的挑战。

为此,我们开发了这款本地文档智能脱敏工具。新版本无需复杂安装,解压即用!它的核心目标是在文档离开您的计算机之前,通过本地的轻量级AI模型结合灵活的规则(包括v0.5.0新增的精细化管理自定义正则),自动识别并处理其中的敏感信息。此外,还提供了可选的文档处理增强模块,以支持更多文件格式。这使您能够更安心地将脱敏后的文档提交给在线AI服务进行分析或处理。

核心流程:本地处理(导入/粘贴 -> 智能脱敏)-> 安全利用在线AI -> 获取结果 -> 本地一键还原。

主要功能 (v0.5.0)

核心脱敏

智能识别:结合轻量本地AI与规则,自动识别并替换人名、地名、机构、联系方式、证件号等敏感信息为__MASKED_{type}_{uuid}__占位符。

精细化管理:支持通过勾选启用/禁用单个脱敏词,按类型批量启用/禁用,以及搜索脱敏词。

自定义规则:支持添加自定义敏感词及替换值,并新增支持自定义正则表达式脱敏规则。

快速添加:支持在文本框中选中文字后,右键快速添加为自定义脱敏词。

脱敏一致性:同一敏感信息在不同文档中会被替换为相同的占位符,方便处理关联文档。

一键还原:将在在线AI处理后的文本粘贴回来,即可快速恢复原始信息。

[可选] 文档处理增强:通过安装增强模块,可支持 PDF (含扫描件)、DOCX、DOC 等格式直接输入并转换为 Markdown。

重要提示

首次运行:解压后首次运行,会自动弹出模型管理界面,请点击下载实体识别模型(约 300MB+)。下载完成后即可使用核心脱敏功能。

[可选] 增强模块模型:如需处理文档(PDF/Word等),请通过主界面左上角菜单安装“文档识别增强模块”,并根据提示下载相应模型(约 5GB+)。

处理速度:直接传入文档或者粘贴文本进行脱敏速度最快。使用文档处理增强模块处理文件可能耗时较长。

硬件建议:推荐在8GB 内存及以上的电脑运行。

版本说明:当前版本v0.5.0

快速上手 (v0.5.0)

1. 获取工具

• 夸克网盘: https://pan.quark.cn/s/f630b3d7229e

• Gitee: https://gitee.com/higher-farther/Local_Document_AI_Desensitization_Tool

• GitHub: https://github.com/NextDoorLaoHuang-HF/Local_Document_AI_Desensitization_Tool

• 下载完成后,在本地选择合适位置解压即可。

2. 首次运行与模型下载

Windows用户:直接双击解压后文件夹内的文档脱敏工具.exe

macOS用户:直接双击解压后文件夹内的文档脱敏工具

首次运行

• 程序会自动弹出模型管理窗口

• 请在此窗口中找到实体识别模型 (NER Model)(约 300MB+),点击下载按钮。

模型管理界面示意图

• 等待模型下载完成。

• 下载完成后,关闭模型管理窗口,主程序界面即可正常使用。

3. [可选] 安装文档处理增强模块

• 如果您需要直接处理 扫描版PDF或布局复杂的PDF、、Word、PPT、图片等文件,可以安装此可选模块。

• 在主界面左上角菜单栏,点击并勾选增强模块->文档识别增强模块。

• 在弹出的窗口点击使用 uv 进行一键安装

• 安装完成后,会再次弹出模型管理窗口,请下载显示“未安装”的模型 (约 5GB+)。

• 如需通过增强模块处理word、ppt等Office文件,需要手动安装LibreOffice软件。

• LibreOffice: https://zh-cn.libreoffice.org/

4. 使用说明

主界面

首页

• 默认使用"文件传入"方式

• 可切换为"文本输入"直接粘贴文本

• 文档处理:如果使用文档处理增强模块,可能需要等待一段时间;不使用增强模块,处理速度较快

• 文档处理完成后,需要选择需要应用的脱敏词,点击“执行脱敏”

• 脱敏完成后:

处理完成

• 可一键复制到剪贴板

• 可保存为文件

脱敏词管理 (新)

启用/禁用:通过勾选列表中的复选框,可以启用或禁用单个脱敏词或正则表达式规则。

按类型筛选:在“实体类型”处点击鼠标右键,在弹出窗口选择类型标签(如 PER, LOC, ORG 等)可以批量启用或禁用该类型的所有默认规则。

添加自定义词:点击“添加自定义词”按钮,输入敏感词和替换值。

添加正则表达式:点击“添加正则规则”按钮,输入正则表达式和类型值。

右键快速添加:在左侧文本输入框中选中需要脱敏的文本,单击右键,选择“添加为自定义脱敏词”,即可快速添加。

结语

这款开源工具希望能为关注数据安全又希望拥抱AI的您提供一个实用选择。我们期待您的试用与宝贵反馈,共同完善它!

反馈、共创微信群:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O16-t_KNYinzueGzNfEZJNHg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券