原子能力名称 | 能力和特征 | 相关接口 |
文档解析(同步) | 支持将多种格式文件转换成 Markdown 格式文件,可解析包括表格、公式、图片、标题、段落、页眉、页脚等内容元素,并将内容智能转换成阅读顺序。适用于对耗时要求较高的解析场景,如实时文档问答,支持的文件较小,耗时较短。 | 实时文档解析 |
文档解析(异步) | 支持将多种格式文件转换成 Markdown 格式文件,可解析包括表格、公式、图片、标题、段落、页眉、页脚等内容元素,并将内容智能转换成阅读顺序。适用于知识库问答等对耗时没有严格要求的场景,支持更大的文件。 | 创建文档解析任务 查询文档解析任务结果 |
文档解析拆分 | 支持将多种格式文件转换成 Markdown 格式文件并进行多级语义拆分,返回文件拆分后的结果。可用于后续的检索片段召回和阅读理解等。使用拆分模型后的相比传统正则切分方式,回答完整性提升20%。 | 创建文档拆分任务 查询文档拆分任务结果 |
embedding | 支持调用文本表示模型,将文本转化为用数值表示的向量形式,可用于文本检索、信息推荐、知识挖掘等场景。 | 获取特征向量 |
多轮改写 | 该接口主要用于多轮对话中,进行指代消解和省略补全。使用本接口,无需输入 prompt 描述,根据对话历史即可生成更精确的用户查询语句。在应用场景上,本接口可应用于智能问答、对话式搜索等多种场景。 | 多轮改写 |
重排序 | 重排序服务 ( ranker ) 提供 query 和切片片段之间的相关性排序服务,在 RAG 及搜索场景中,可通过排序服务找到相关性更高的内容并依次返回,引入排序服务可有效提升检索及大模型生成的准确率。 | 重排序 |