首页
学习
活动
专区
圈层
工具
发布

#LLM

在 Langfuse 上配 LLM-as-Judge,五个真坑我替你踩过了

windealli

Langfuse 的在线评测核心是 LLM-as-Judge——也就是用一个大模型当裁判,来看你 Agent 的输出并打分。裁判自己也是个 LLM,所以你得先把...

300

用 LLM Wiki 给自己搭一个会越用越值钱的第二大脑

AI进修生

这是一个基于 Andrej Karpathy 的 LLM Wiki 模式 构建的开源项目。

1200

一道LLM推理部署面试题:KV缓存淘汰90% token,显存为什么没降?

用户11563501

用vLLM部署推理模型,长序列推理时频繁爆显存。于是给服务加了KV缓存压缩策略,淘汰90%的非重要缓存token,重启后显存占用几乎没变,还是会在相近的序列长度...

1300

Loop Engineering 的代价:LLM 可用性是工程用 Token 买出来的

乱世不浮生

从 Prompt 到 Loop,四个工程阶段每一步都在用更多 token 换更高可用性。这不是模型在变聪明,是工程在替模型还债。

900

llm落地困境破局?工作流如何成为程序员的「场景化改造」利器

掘金安东尼

众所周知,大模型是通用模型,大小公司要么是卖模型的、要么是买模型的,大家发现在专业场景下,大模型处理还是乏力。

1600

解密Prompt系列70. 从 MLA 到 CSA,聊聊大模型 Attention 的“瘦身”与“闪送”

风雨中的小七

这一章我们聊聊这两年注意力架构的技术演化路线。全文覆盖三个方向,每个方向都是上一个方向的"接力棒":

10800

LLM-Wiki企业级AI知识库实战教程

用户12587183

技术栈:Obsidian · AI Agent 框架 · SQLite FTS5 · Python

17620

一个 LLM 是大脑,套上 Harness 才是工程师

HELLO程序员

GSK(中国) | 全栈架构师 (已认证)

让这颗大脑真正有用的东西,叫 Harness:套在 LLM 外面的运行时脚手架,给它装上感官、双手和记忆。事件接入、Agent 编排、持久化状态、自愈循环、可观...

12710

2026年全球LLM定价权演进、商业模式重构与成本效益分析深度报告

jeffery_jcm

在人工智能发展史上,2026年被视为大语言模型(LLM)从“技术奇点”转向“产业奇点”的关键节点。这一转变的核心驱动力已不再仅仅是模型参数规模的线性扩张,而是围...

17210

记忆不是被检索出来的,而是被重建出来的:给 LLM Agent 装上一颗会联想的大脑

唐国梁Tommy

设想你和一个 AI 助手聊了三个月。某天你问它:「我朋友 Caroline 七月那会儿在忙什么来着?」

10710

RSI 递归自我改进:让 LLM 自己来设计下一代的 LLM

唐国梁Tommy

这个问题听起来既科幻又有点危险。它指向 AI 圈子里一个长期被搁置的概念——Recursive Self-Improvement(RSI,递归自我改进)。它由 ...

12910

Google DeepMind:视频大模型的真正瓶颈,从来不在 LLM 那一端

唐国梁Tommy

让我们先看看主流 Video LLM 的标准架构:一个 Vision Transformer 把视频逐帧编码成 token,对齐到 LLM 的 embeddin...

7410

想让LLM多想几轮,又不想显存爆炸?MELT 把循环 Transformer 的 KV 缓存解耦了

唐国梁Tommy

过去两年,让大模型"会思考"的主流路径是 Chain-of-Thought:模型在给答案前先把推理过程一段段地"说出来"。它有效,但也有清晰的代价——输出越长,...

10710

大模型到底是怎么"思考"的?看懂 Token Space 与 Latent Space,你才真的理解了 LLM

唐国梁Tommy

那个高维空间,就是这两年"机制可解释性""激活引导""latent reasoning"都在围着转的 latent space。要真正看懂今天的 LLM,你必须...

9210

聊天是入口,Wiki 才是产品:LLM 知识运行时的范式转移

唐国梁Tommy

Schema(行为约束层) —— 决定页面命名规则、新建时机、引用规范、矛盾处理方式。没有 Schema,LLM 只是写作者;有了 Schema,LLM 才是知...

13410
领券