模型介绍

最近更新时间:2025-02-11 09:46:52

我的收藏
大模型知识引擎支持以下模型,您可根据您的需求进行选择。
平台按照模型用途,将模型分为两大类:
1. 思考模型:在标准模式下,用以意图识别,主要影响意图识别的效果;在 Agent 模式下,主要影响 Agent 的任务规划和工具调用。
2. 生成模型:主要影响阅读理解与答案生成的效果。

生成模型

大模型知识引擎目前已接入精调知识大模型、混元大模型、行业大模型、DeepSeek 等十余种模型,各模型详情及适用场景如下:
模型名称
输入输出
场景描述
精调知识大模型高级版
最大输入7k
最大输出1~4k
1. 适用场景:针对企业知识问答场景精调训练,擅长多模态知识问答,适合图文表答案关联输出、数学计算、逻辑推理、表格问答等复杂场景有需求的场景。
2. 优势能力:支持图文关联输出、数据计算、表格问答、标签提取。
精调知识大模型标准版
最大输入7k
最大输出1~4k
1. 适用场景:针对企业知识问答场景精调训练,擅长多模态知识问答。性价比相对更高,适合需要同时平衡效果、价格的场景。
2. 优势能力:支持图文关联输出。
混元大模型高级版
最大输入28k
最大输出4k
1. 万亿级参数规模 MOE-32k 长文模型。
2. 在各种 benchmark 上达到绝对领先的水平,复杂指令和推理,具备复杂数学能力,支持 functioncall,在多语言翻译、金融法律医疗等领域应用重点优化。
混元大模型标准版
最大输入30k
最大输出2k
1. 采用更优的路由策略,同时缓解了负载均衡和专家趋同的问题。
2. MOE-32k 性价比相对更高,在平衡效果、价格的同时,可对实现对长文本输入的处理。
混元大模型Turbo版
最大输入28k
最大输出4k
混元 turbo 模型默认版本,采用全新的混合专家模型(MoE)结构,相比混元大模型高级版推理效率更快,效果表现更强。
混元大模型长文本版
最大输入250k
最大输出6k
1. 采用更优的路由策略,同时缓解了负载均衡和专家趋同的问题。长文方面,大海捞针指标达到99.9%。
2. MOE-256k 在长度和效果上进一步突破,极大的扩展了可输入长度。
混元大模型角色扮演版
最大输入28k
最大输出4k
混元最新版角色扮演模型, 基于混元模型结合角色扮演场景数据集进行增训,在角色扮演场景具有更好的基础效果。
金融行业大模型标准版
最大输入7k
最大输出1~4k
1. 适用场景:金融领域问答场景。
2. 优势能力:基于金融领域数据进行预训练和精调训练,擅长金融领域知识问答,适用于投资知识问答、金融产品问答等应用场景。
教育行业大模型标准版
最大输入7k
最大输出1~4k
1. 适用场景:基于教育领域数据专项训练,适用于英语口语对话练习和教案场景。
2. 优势能力:英语口语陪练场景中,支持教材课后对话练习、对话难度设定、语法分析等能力;教案场景中,支持教案生成、教案润色、教案题目生成。
教育行业大模型高级版
最大输入7k
最大输出1~4k
1. 适用场景:基于教育领域数据专项训练,适用于对于英语口语对话练习自然度和任务遵循程度、教案生成丰富度的效果表现有需求的场景。
2. 优势能力:针对教育领域深度训练,提升英语口语对话自然度与任务遵循度,同时丰富教案生成内容,助力教师高效备课与学生个性化学习。
医学行业大模型标准版
最大输入3.4k
最大输出500
1. 适用场景:医学知识问答,电子病历生成。
2. 优势能力:基于医疗领域数据专项强化,擅长医疗领域知识问答,适用于医学实体抽取、医学对话总结、病历撰写等应用场景。
DeepSeek-R1
32k
强化学习(RL)驱动的推理模型,在数学、代码和推理任务中与 OpenAI-o1 表现相当。与 DeepSeek 助手深度思考模式为同款模型。
DeepSeek-V3
32k
拥有6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。

思考模型

根据应用模式的不同,支持的思考模型有所区别:
标准模式思考模型包含:
模型名称
输入输出
场景描述
意图识别模型高级版
最大输入8k
最大输出4k
适用于同时配置问答、文档、工作流的场景,意图识别效果更佳,并且支持在角色指令中自定义配置意图,但可能会增加一定的对话耗时。
Agent 模式思考模型包含:
模型名称
输入输出
场景描述
精调 Function-Call 模型
最大输入8k
最大输出4k
模型具备任务规划、工具选择调用以及反思纠错能力,适用于复杂问题的规划与执行。