前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >最新最强,DeepSeek大模型v2的技术指标评测

最新最强,DeepSeek大模型v2的技术指标评测

作者头像
否子戈
发布2024-05-13 17:09:12
4790
发布2024-05-13 17:09:12
举报
文章被收录于专栏:

最近,来自杭州的深度求索发布了第二代开源MoE模型DeepSeek-V2,从各项指标来看,都具备了领先水平,无论与开源模型,还是闭源模型对比,都处于第一梯队,是GPT-4, 文心4.0, Qwen1.5 72B, LLaMA3 70B等先进大模型的有力竞争对手。本文就来介绍一下。

参数规模与性能

DeepSeek-V2包含236B(十亿)参数,每个Token激活2.1B参数,支持长达128K的上下文长度。在性能上,它与GPT-4-Turbo、文心4.0等闭源模型在中文综合能力评测中处于同一梯队,英文综合能力与开源模型LLaMA3-70B处于同一梯队。

上下文长度

开源模型支持长达128K的上下文长度,而聊天和API支持32K的上下文长度,有助于处理需要大量上下文信息的复杂任务。

中文能力

中文综合能力(AlignBench)开源模型中最强,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队。

编程能力

擅长编程任务和逻辑推理,适用于技术领域和需要复杂决策的应用场景。从官方把coder放在突出位置,就可以看出团队对自家大模型编程能力的自信。

API价格

DeepSeek-V2的API定价为每百万输入Tokens 1元(0.14美元),每百万输出Tokens 2元(0.28美元),具有竞争力的价格。

模型架构

DeepSeek-V2采用了MoE架构,特别是它对Transformer架构中的自注意力机制进行了创新,提出了MLA(Multi-head Latent Attention)结构,并使用MoE技术进一步降低计算量,提高推理效率。

商用

开源协议为MIT,且注明了V2系列支持商用。

结语

具有极强的价格竞争力,以及看上去不错的数据表现,让我对这家公司有了兴趣,经过了解后,发现,这家公司是幻方旗下的独立公司,幻方本身是做AI量化投资的,做着做着发现AI这块大有可为,独立了一块业务,成立了新品牌做大模型,以及探索各种可能性。在当前主流的大模型服务中,我认为要具备以下几点才能称得上好模型:1. 开源,2. 价格低,3. 对中文的理解能力强,4. 在架构上支持更大的上下文窗口和更牛的性能。抛开国外的知名模型不提,从感情上,我是比较支持国内的优秀模型,在AI领域出现更多可在中文语境下创作的AI应用,既能让普通开发者以更低的成本进入AI赛道,也可以让更多的普通人享受AI带来的便利。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 唐霜 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档