Python解析 llms.txt 的教程：一键生成LLM上下文XML

代码简单说

发布于 2026-06-16 14:02:57

840

文章被收录于专栏：代码简单说代码简单说

Python解析 llms.txt 的教程：一键生成LLM上下文XML

关键词：Python教程、LLM上下文生成、llms.txt解析、AI上下文工程、Claude context、Python CLI工具、Prompt工程

前言

最近在研究 LLM上下文工程（Context Engineering） 时，发现一个非常实用的小工具：llms-txt。它的作用非常明确：把 llms.txt 文件转换成适合大模型使用的 XML 上下文文档。

这类工具在做 AI Agent、RAG、Claude 项目、Prompt工程时非常实用，可以把项目文档自动整理成模型可理解的结构化上下文。

本文将完整介绍：

llms.txt 是什么
如何使用 CLI
如何使用 Python API
原理解析（含20行实现的解析器）

一、什么是 llms.txt

一句话理解：

llms.txt 是专门给大模型看的 README

它使用 Markdown 描述项目，并把 文档、示例、知识链接 按结构组织。

示例：

# FastHTML

> FastHTML is a python library which...

When writing FastHTML apps remember to:

- Thing to remember

## Docs
- [Surreal](https://host/README.md): Tiny jQuery alternative
- [FastHTML quick start](https://host/quickstart.html.md)

## Examples
- [Todo app](https://host/adv_app.py)

## Optional
- [Starlette docs](https://host/starlette-sml.md)

核心结构：

区块	含义
Title	项目名称
Summary	项目简介
Info	额外说明
Sections	Docs / Examples / Optional

二、安装 llms-txt

pip install llms-txt

安装完成后会得到 CLI 命令：

llms_txt2ctx

三、CLI 使用教程

查看帮助

llms_txt2ctx -h

转换 llms.txt 为 XML 上下文

llms_txt2ctx llms.txt > llms.md

如果需要包含 Optional 区块：

llms_txt2ctx llms.txt --optional True > llms.md

生成的内容就是 可直接喂给 Claude / GPT 的上下文文档。

四、Python API 使用

除了 CLI，它还提供 Python 模块，适合在项目中自动化生成上下文。

导入模块

from llms_txt import *
from pathlib import Path

读取 llms.txt：

samp = Path('llms-sample.txt').read_text()

1️⃣ 解析 llms.txt

parsed = parse_llms_file(samp)

解析后得到结构：

list(parsed)

输出：

['title', 'summary', 'info', 'sections']

查看标题和摘要：

parsed.title, parsed.summary

输出：

('FastHTML', 'FastHTML is a python library...')

查看所有 section：

list(parsed.sections)

输出：

['Docs', 'Examples', 'Optional']

查看某条链接：

parsed.sections.Optional[0]

返回结构：

{
  "desc": "A subset of the Starlette documentation useful...",
  "title": "Starlette full documentation",
  "url": "https://..."
}

2️⃣ 生成 LLM XML 上下文

最关键一步：

ctx = create_ctx(samp)
print(ctx[:300])

生成结果类似：

<project title="FastHTML" summary="...">
Remember:
- Use serve() for running uvicorn
...

这一步就是 CLI 背后的核心逻辑。

五、核心实现原理（重点）

官方给了一个 无依赖 20 行解析器，非常值得学习。

完整解析器

from pathlib import Path
import re,itertools

def chunked(it, chunk_sz):
    it = iter(it)
    return iter(lambda: list(itertools.islice(it, chunk_sz)), [])

def parse_llms_txt(txt):
    "Parse llms.txt file contents in `txt` to a `dict`"
    def _p(links):
        link_pat = '-\s*\[(?P<title>[^\]]+)\]\((?P<url>[^\)]+)\)(?::\s*(?P<desc>.*))?'
        return [re.search(link_pat, l).groupdict()
                for l in re.split(r'\n+', links.strip()) if l.strip()]

    start,*rest = re.split(fr'^##\s*(.*?$)', txt, flags=re.MULTILINE)
    sects = {k: _p(v) for k,v in dict(chunked(rest, 2)).items()}
    pat = '^#\s*(?P<title>.+?$)\n+(?:^>\s*(?P<summary>.+?$)$)?\n+(?P<info>.*)'
    d = re.search(pat, start.strip(), (re.MULTILINE|re.DOTALL)).groupdict()
    d['sections'] = sects
    return d