晚上翻阅了DeepSeek的官网API,认真仔细的阅读了一翻。其实我的主要目的不是从开发层面对接DeepSeek,而是以产品的角度了解DeepSeek的调用原理,从而帮助我们更好的使用DeepSeek。
首先进入DeepSeek的API文档,从左侧菜单可以了解API的主要概况,他提供了快速开始主要告诉你首次如何调用API、模型和价格(模型和价格这个地方提到了比较重要的三个概念,一个是通用模型和推理模型,第二个是思维链,第三个是token )、Temperature参数的设置(根据不同的场景定义不同的参数值)、Token用量的计算 、限速(这里面提到了流式与非流式的请求)、请求返回时的错误码。这里我们针对通用模型和推理模型、思维链、Token和流式与非流式请求进行简单科普一下。
1)通用模型和推理模型:推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。比如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。通用模式适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。例如:GPT-3、GPT-4(OpenAI),BERT(Google),DeepSeek-V3。通过了解这两种模式的差异,我们就可以根据我们的需求选择不同的模型。
2)思维链:官方API的解释是模型在给出正式回答之前的思考过程。可以把思维链理解为慢速思考模型(链式推理)与之对应的是快速反应模型(概率预测)。前者是逐步推理问题的每个步骤来得到答案;后者是通过大量数据训练来快速预测可能 的答案。说白了呢,就像两个人回答一个问题,一个能凭自己的过往经验脱口而出答案,而另一个呢要沉思良久后给出答案。所以对于处理即时任务适合快速反应的通用模型,而需要处理复杂问题时,可以选择推理模型。
3)Token:Token 是文本分割后的最小单位,可以是单词、子词(subword)、符号或字符。Token 是语言模型处理文本的基本单元,模型通过 Token 来理解和生成文本。举个例子,比如:英文句子"Hello, world!"可能被分割为以下 Token:["Hello", ",", "world", "!"]。在付费模型中,Token 数量直接关系到使用成本。所以在扣费规则中描述扣减费用 = token 消耗量 × 模型单价。
4)流式与非流式的请求:流式输出适合实时性要求高、数据量大的场景,资源占用少,但错误处理复杂。非流式输出适合数据量小、无需即时处理的场景,资源占用多,但错误处理简单。
今天先到这里,明天我们继续分享其它的几个模块。
领取专属 10元无门槛券
私享最新 技术干货