今天发现有个面向DeepSeek V4的终端原生编程工具:DeepSeek TUI,一个完全运行在终端里的编程智能体。
上周技术圈最值得注意的,可能不是某一个模型更新了,而是 AI 公司正在重新分配资源。
据外媒报道,中国人工智能明星公司DeepSeek正寻求完成一轮规模超过500亿元人民币(约73.5亿美元)的融资。若顺利达成,这将刷新中国AI公司单轮融资纪录,...
• DeepSeek V4预览版发布:1.6万亿参数Pro + 285B参数Flash,百万上下文标配,MIT协议开源,API最低0.2元/百万Token
自从DeepSeek发布V4 Pro和Flash模型来,我就第一时间把这个模型接入了Claude Code:如何在Claude Code里面用上DeepSeek...
选择后,直接安装即可。如果我们之前已经在CLI环境配置过DeepSeek的模型,如何在Claude Code里面用上DeepSeek V4 Pro模型?这里会复...
腾讯云轻量应用服务器Lighthouse正式上线DeepSeek-TUI应用镜像,作为DeepSeek版的Claude Code使用轻量云Lighthouse可...
这个Attention有三块功能构成:1.KV Compressor负责把N个token的KV压缩成1个,在DeepSeek V4系列模型里,N=4。2.Lig...
我的三个项目,原来用 GPT-5.5,每月 token 消耗 500 万,成本约 4400 元。切到 DeepSeek-V4 后,同样的用量,成本降到 450 ...
然后 2026 年 4 月 24 日,DeepSeek 发布了 V4,并在三天后(今天,4 月 27 日)宣布 V4-Pro 限时降价 75%。我把 Claud...
上个月有个朋友把他们产品的 LLM 调用账单发给我看,每天 300 万 output token,GPT-5.4 收 ,一个月光是费用就快14,000。
DeepSeek 这家公司,从头到尾都在走 “反共识” 的路。别人抢资深大牛,他招清北应届毕业生,看重热情和创造力,不看资历;别人快速迭代、疯狂发版,他憋了 1...
时间回到一年多前,DeepSeek-R1的横空出世,为狂奔的大模型创业赛踩了一脚刹车,进入决赛圈的大模型“六小虎”首当其冲。和硅谷最大的区别,DeepSeek没...
劳动节假期还没过完,vLLM 团队就给我加了道菜——0.20.1 紧急 patch 出炉了,主线就一句话:把 DSV4 跑不稳、跑不快的问题集中处理一遍
下图是它的整体架构和训练流程,基于 DeepSeek-V4-Flash(284B 总参 / 13B 激活的 MoE)和自研的 DeepSeek-ViT:
今天换个角度,从架构和推理引擎的视角聊聊:DeepSeek-V4 这次发布为啥这么难伺候,以及 SGLang Day-0 是怎么把活给做下来的
5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(M...
最近gpt-image-2生图、 deepseek v4模型比较火, 有同学想尝试一把。问我有没有推荐的途径