简介
TCDataAgent 的支持将各类文本文档解析为可问答的知识资产。向知识库添加文档时,您可从本地上传文档,也可从对象存储 COS 导入文档。添加文档后,TCDataAgent 将提取文本内容、语义信息,您可对其进行对话问答。
当前支持的文档类型说明如下:
支持的文档类型 | 文档大小限制 |
PDF、DOC、DOCX、PPT、PPTX | 100MB以内 |
MD、TXT、XLS、XLSX、CSV | 10MB以内 |
PNG、JPG、JPEG | 20MB以内 |
当前知识库功能模块有如下使用限制:
说明:
单次最多可上传或导入10个文档。
从 COS 导入文档时,暂仅支持选择腾讯云北京地域的对象存储 COS 桶。
对于图片文件,暂仅支持提取图片中的文本内容,更多图片语义理解功能敬请期待。
前置准备
添加文档
从本地上传文档

您可单击上传本地文档,或将本地文档拖拽至目标区域中。

上传后,您可继续点击上传或拖入本地文档,一次最多可上传10个文档。
在文档分段方式上,TCDataAgent 默认使用根据语义自动分段的智能分段方式。

若您需自行设置分段规则,可选择“自定义分段”,并自定义“分段标识符”、“分段最大长度”、“分段重叠度”。各配置字段说明如下:
字段名称 | 字段说明 | 字段值说明 |
分段标识符 | 用于识别文本中自然分段边界的字符或字符串 | 可选值:换行符“\\n”、中文逗号“,”、中文句号“。”、 中文叹号“!”、 中文问号“?”、 英文逗号“,”、 英文句号“.”、 英文叹号“!”、 英文问号“?”、自定义 |
分段最大长度 | 单个文本块所允许包含的最大文本字符数 | 最小值500,最大值5000,步长1 |
分段重叠度 | 相邻两个文本块之间重复的文本比例 | 最小值0%,最大值100%,步长1% |

配置后单击确定,页面自动返回知识库列表页,显示该文档状态为“数据处理中”。

等待一段时间后,文档状态转为“可用”。


从 COS 导入文档

您可在弹窗中选择目标 COS 路径和文件,单击确定。

进入文档配置页面。您可选择继续从COS导入文档、选择分段方式。

查看文档分段

进入文档分段详情页。

您可搜索分词关键词的分段情况。

您可单击原始文档对比,对比原始文档与分段结果。

更新文档分段配置


删除文档

如确认删除,可在弹窗中单击确定删除。
