API 文档

SDK 文档

诚邀爱技术、爱分享的你,成为文档内容共建者> HOT

简介

针对文档类文件,数据万象提供隐私合规保护文档预览功能。

隐私合规保护

数据万象隐私合规保护功能可实现筛查文档类文件中的身份证号、纳税人识别号、工商注册号、军官证、电子邮箱、车牌号、手机号类型的敏感数据,防止信息泄露。目前隐私合规保护功能仅支持数据上传自动触发扫描。

说明:

当前支持的隐私合规保护文件类型如下:

  • Office 文件:doc,docx,ppt,pptx,xls,xlsx,rtf
  • WPS 文件:wps,dps,et
  • PDF 文件:pdf
  • 纯文本文件:txt,xml,slk
  • 网络文件:html,msg
  • 邮件:eml,pst

操作步骤

  1. 登录 数据万象控制台 ,单击存储桶管理,进入存储桶管理页面。
  2. 存储桶管理页面选择并单击需操作的存储桶,进入相应存储桶管理页面。
  3. 单击左侧导航栏文档处理页签,然后选择隐私合规保护配置项。
  4. 单击编辑,将状态修改为开启,然后按照如下配置项说明进行配置:
    • 文件类型:支持自动触发隐私合规保护的文件类型,可多选。
    • 审核类型:隐私合规保护进行筛查的敏感数据种类,可多选。
    • 回调设置:开启回调设置后,您可输入回调 URL 以接受隐私合规保护的筛查结果。注意,回调 URL 地址须默认返回 HTTP 200状态码方可使用,预计配置5分钟后生效。
  5. 开启隐私合规处理后,您可在页面下方查看隐私敏感数据详情。您可选择查看指定时间、指定违规类型、指定敏感级别、指定审核类型的审核结果。
说明:

违规类型包括 GDPR、等保合规、网络安全法。根据审核结果,文档将被判定为高、中、低三种敏感级别。

文档预览

文档预览支持对多种文件类型生成图片格式预览,可以解决文档内容的页面展示问题,满足 PC、App 等多个用户端的文档在线浏览需求,适用于在线教育、企业 OA、网站转码等业务场景。目前数据万象文档预览服务支持下载时实时预览异步创建文档预览任务

说明:

  • 目前支持的输入文件类型包含如下格式:
    演示文件:pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm。
    文字文件:doc、dot、wps、wpt、docx、dotx、docm、dotm。
    表格文件:xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm、ets。
    其他格式文件: pdf、 lrc、 c、 cpp、 h、 asm、 s、 java、 asp、 bat、 bas、 prg、 cmd、 rtf、 txt、 log、 xml、 htm、 html。
  • 输入文件大小限制在200MB之内。
  • 输入文件页数限制在5000页之内。

操作步骤

控制台文档预览界面提供文档预览相关服务,包括开通/关闭文档预览功能、创建文档预览任务、开启/关闭文档处理队列、设置回调。

开通服务

  1. 登录 数据万象控制台 ,单击存储桶管理,进入存储桶管理页面。
  2. 存储桶管理页面选择并单击需操作的存储桶,进入相应存储桶管理页面。
  3. 单击左侧导航栏文档处理页签,然后选择文档预览配置项。
  4. 单击文档预览编辑,将状态修改为开启,单击保存,即可开通文档预览服务。
  5. 开通服务后,使用相应的文档预览接口即可实现 下载时实时预览;同时支持 异步创建文档预览任务

创建任务

  1. 单击任务管理模块创建任务填写任务相关参数,然后按照如下配置项说明进行配置。
    • 文件路径:文件路径以 / 开头,以 / 分隔文件夹,如/doc/example.dox。
    • 预览设置:您可选择预览整个文档或预览指定页码文档,目前单次任务支持最大页码数为5000页,若您选择处理的页数超过5000,则只对前5000页进行转化。
    • 队列:当您开通文档预览服务时,系统默认为您开启 queue-doc-process-1 队列,您可在队列版块手动关闭。若您有更多队列需求,请 提交工单
    • 输出存储桶:您可选择同地域下开通了文档预览服务的存储桶作为输出存储桶。
    • 输出图片格式:目前支持 JPG 和 PNG 两种输出图片格式。
    • 输出路径:选填,若未填写则输出路径与输入文件路径保持一致。
    • 输出文件名:文档预览服务将原文档的每一页转化输出为一张图片,因此需要在输出文件名中需添加占位符对输出的图片进行编码。您可选择${Number}或${Page}作为占位符,输出编码序号与文档页码序号一致。如您选择对页数为3的文档进行预览,并指定输出文件名为 output${Number}.jpg,则最终将会输出名为 output1.jpg、output2.jpg 和 output3.jpg 三张图片。
  2. 单击确认,即可完成文档预览任务创建。

任务管理

您可在任务管理版块筛选查看文档预览任务。您可按照时间、任务 ID、任务状态进行任务筛选。除页面展示的信息外,单击操作栏查看,可查看更多任务信息。

队列设置

当您开通文档预览服务时,系统默认为您开启 queue-doc-process-1 队列,您可在队列模块操作栏暂停队列。

回调设置

  1. 单击队列,进入队列页面。
  2. 单击操作栏回调规则,弹出回调设置界面。
  3. 单击编辑,开启回调状态,输入回调 URL 地址,单击确认,完成回调设置。文档预览任务完成后会发送任务的执行情况至回调地址,便于您进行后续操作。
    注意:

    回调 URL 地址需默认返回 HTTP 200状态码方可使用,预计配置5分钟后生效。

说明:

  • 文档预览为付费功能,具体费用请参见 计费与定价
  • 数据万象在每个账户在首次产生文档预览转图片用量后,将发放一个用量为6000页,有效期为2个月的文档预览转图片免费额度资源包,超出用量或资源包到期后将正常计费。
目录