GSK(中国) | 全栈架构师 (已认证)
“给大模型喂一份 1000 页的财报,它要么‘内存爆炸’,要么切片段后逻辑全乱 —— 这难题终于被破解了!” 近期 DeepSeek 发布的 DeepSeek-...
“光是下载就要 8 小时!”2025 年 9 月 29 日,深度求索发布 DeepSeek-V3.2-Exp 大模型的消息刚出,程序员圈子就炸了 ——671GB...
这个问题国内三个模型,推理模式下两个都回答对了 GLM4.6、DeepSeek-V3.2、Qwen3,就 DeepSeek 错了,这类问题对于 AI 来说 还是...
论文最有实证价值的发现,来自对 DeepSeek-R1 和 QwQ-32B 的研究。直觉上,这些模型"思考时间越长、表现越好"——但实验否定了这个简单解释。
线上碰到一个问题,当用户提交一个流程时,经常出现流程中途节点出现超长等待才会出现结果,甚至有时感觉系统hang了
DeepSeek-V3的数据最能说明问题:671B的知识量,37B的计算成本。 推理速度由激活参数决定(37B),而不是总参数(671B)。这意味着它的推理速度...
金额是510亿人民币,投后估值接近4000亿。投资方阵容包括腾讯(100亿)、宁德时代(50亿)、京东和网易(各30亿),以及IDG、砺思资本等机构。创始人梁文...
2026年,生成式AI的回答已经成为用户获取信息的首要入口。但鲜为人知的是,这些AI的答案并非凭空产生——它们依赖一种名为RAG(Retrieval-Augme...
今天,老周带你用最硬核、最酷炫的“黑客流”玩法:在终端(命令行)中配置专为国产良心大模型 DeepSeek 打造的开源终端神器 —— deepseek-tui(...
6 月 18 日,DeepSeek 识图模式同步上线网页端与 App,多家媒体实测发现人像识别存在明显漏洞。上传创始人梁文锋实拍照片反复测试,模型均无法精准匹配...
看到技术白皮书和核心参数泄露图的瞬间,我整个人直接从人体工学椅上弹了起来。作为天天带队在算力前线跟 Token 账单、模型延迟、API 路由肉搏的技术负责人,我...
利用开源中转工具 CC-Switch,把 Codex 的大模型底层,无缝替换成国内性价比无敌、推理能力强悍的DeepSeek API,来帮助大家捂紧钱包。
2026年开年,DeepSeek照例不让大家放松过年,又发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections...
不知道是否是巧合,DeepSeek与智谱都想到了这一个思路,并同时对外发布,DeepSeek发布了DeepSeek-OCR,而智谱发布了一个名为 Glyph 的...
副标题: 三类真实任务 Token 测算、官方价目对比、混合栈月账单——附省钱配置与「别为便宜买单」清单
副标题: 官方 Anthropic 兼容端点、环境变量、[1m] 模型名、子 Agent 用 Flash——附 OpenClaw / OpenCode 与常见报...
Moonshot AI昨日正式发布Kimi K2大语言模型,采用混合专家(MoE)架构,总参数量达1万亿,激活参数32B,支持128K上下文长度。该模型在代码生...
在昇腾 NPU 上进行大模型推理,长期以来都是国内开发者面临的一项挑战。虽然华为官方提供了性能表现良好的 MindIE 推理引擎,并原生支持 Atlas 800...
2026 年 4 月 24 日,深度求索(DeepSeek)正式发布DeepSeek‑V4 预览版并同步开源,以100 万 Token 超长上下文、顶尖推理与 ...