首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页
学习
活动
专区
圈层
工具
MCP广场
MCP广场 >详情页
fetcher-mcp云托管模式2025-06-267分享
github
Fetcher MCP 是一个基于 Playwright 无头浏览器的网页抓取服务器,专为处理动态网页内容和现代 Web 应用程序设计。其核心功能包括支持 JavaScript 执行、智能内容提取(使用 Readability 算法去除冗余信息)、灵活的 HTML 和 Markdown 输出格式,以及并行处理多个 URL 以提高效率。此外,Fetcher MCP 通过自动屏蔽不必要的资源(如图片、样式表等)优化性能,并提供健壮的错误处理和可配置参数,适应不同场景需求。它支持通过 HTTP 和 SSE 协议进行数据传输,并可通过 Docker 快速部署,适用于批量网页内容抓取和数据集成任务。
By jae-jae
2025-06-267
github
详情内容
Fetcher MCP Icon

Fetcher MCP

使用Playwright无头浏览器抓取网页内容的MCP服务器。

🌟 推荐OllaMan - 强大的Ollama AI模型管理器。

优势

  • JavaScript支持:与传统网页抓取工具不同,Fetcher MCP使用Playwright执行JavaScript,使其能够处理动态网页内容和现代Web应用程序。

  • 智能内容提取:内置的Readability算法自动从网页中提取主要内容,去除广告、导航和其他非必要元素。

  • 灵活的输出格式:支持HTML和Markdown输出格式,便于与各种下游应用集成。

  • 并行处理fetch_urls工具支持并发抓取多个URL,显著提高批量操作的效率。

  • 资源优化:自动屏蔽不必要的资源(如图片、样式表、字体、媒体),减少带宽使用并提高性能。

  • 健壮的错误处理:全面的错误处理和日志记录,确保即使在处理有问题的网页时也能可靠运行。

  • 可配置参数:细粒度控制超时、内容提取和输出格式,以适应不同的使用场景。

快速开始

使用npx直接运行:

npx -y fetcher-mcp

首次设置 - 在终端中运行以下命令以安装所需的浏览器:

npx playwright install chromium

HTTP和SSE传输

使用--transport=http参数同时启动可流式HTTP端点和SSE端点服务:

npx -y fetcher-mcp --log --transport=http --host=0.0.0.0 --port=3000

启动后,服务器提供以下端点:

  • /mcp - 可流式HTTP端点(现代MCP协议)
  • /sse - SSE端点(旧版MCP协议)

客户端可以根据需要选择连接方式。

调试模式

使用--debug选项运行以显示浏览器窗口进行调试:

npx -y fetcher-mcp --debug

配置MCP

在Claude Desktop中配置此MCP服务器:

在MacOS上:~/Library/Application Support/Claude/claude_desktop_config.json

在Windows上:%APPDATA%/Claude/claude_desktop_config.json

{
  "mcpServers": {
    "fetcher": {
      "command": "npx",
      "args": ["-y", "fetcher-mcp"]
    }
  }
}

Docker部署

使用Docker运行

docker run -p 3000:3000 ghcr.io/jae-jae/fetcher-mcp:latest

使用Docker Compose部署

创建docker-compose.yml文件:

version: "3.8"

services:
  fetcher-mcp:
    image: ghcr.io/jae-jae/fetcher-mcp:latest
    container_name: fetcher-mcp
    restart: unless-stopped
    ports:
      - "3000:3000"
    environment:
      - NODE_ENV=production
    # 在Linux主机上使用主机网络模式可以提高浏览器访问效率
    # network_mode: "host"
    volumes:
      # 对于Playwright,可能需要共享某些系统路径
      - /tmp:/tmp
    # 健康检查
    healthcheck:
      test: ["CMD", "wget", "--spider", "-q", "http://localhost:3000"]
      interval: 30s
      timeout: 10s
      retries: 3

然后运行:

docker-compose up -d

功能

  • fetch_url - 从指定URL检索网页内容

    • 使用Playwright无头浏览器解析JavaScript
    • 支持智能提取主要内容并转换为Markdown
    • 支持以下参数:
      • url: 要抓取的网页URL(必填参数)
      • timeout: 页面加载超时时间(毫秒),默认为30000(30秒)
      • waitUntil: 指定导航何时完成,选项:'load', 'domcontentloaded', 'networkidle', 'commit',默认为'load'
      • extractContent: 是否智能提取主要内容,默认为true
      • maxLength: 返回内容的最大长度(字符数),默认为无限制
      • returnHtml: 是否返回HTML内容而不是Markdown,默认为false
      • waitForNavigation: 是否在初始页面加载后等待额外导航(适用于有反爬虫验证的网站),默认为false
      • navigationTimeout: 等待额外导航的最长时间(毫秒),默认为10000(10秒)
      • disableMedia: 是否禁用媒体资源(图片、样式表、字体、媒体),默认为true
      • debug: 是否启用调试模式(显示浏览器窗口),如果指定则覆盖--debug命令行标志
  • fetch_urls - 并行批量检索多个URL的网页内容

    • 使用多标签页并行抓取以提高性能
    • 返回合并结果,网页之间清晰分隔
    • 支持以下参数:
      • urls: 要抓取的URL数组(必填参数)
      • 其他参数与fetch_url相同

提示

处理特殊网站场景

应对反爬虫机制

  • 等待完全加载:对于使用验证码、重定向或其他验证机制的网站,在提示中包含:

    请等待页面完全加载
    

    这将使用waitForNavigation: true参数。

  • 增加超时时间:对于加载缓慢的网站:

    请将页面加载超时时间设置为60秒
    

    这将相应地调整timeoutnavigationTimeout参数。

内容检索调整

  • 保留原始HTML结构:当内容提取可能失败时:

    请保留原始HTML内容
    

    设置extractContent: falsereturnHtml: true

  • 抓取完整页面内容:当提取内容过于有限时:

    请抓取完整网页内容而不仅仅是主要内容
    

    设置extractContent: false

  • 以HTML格式返回内容:当需要HTML格式而不是默认的Markdown时:

    请以HTML格式返回内容
    

    设置returnHtml: true

调试和认证

启用调试模式

  • 动态调试激活:在特定抓取操作期间显示浏览器窗口:
    请为此抓取操作启用调试模式
    
    即使服务器启动时未使用--debug标志,也会设置debug: true

使用自定义Cookie进行认证

  • 手动登录:使用自己的凭据登录:

    请在调试模式下运行,以便我手动登录网站
    

    设置debug: true或使用--debug标志,保持浏览器窗口打开以便手动登录。

  • 与调试浏览器交互:启用调试模式时:

    1. 浏览器窗口保持打开
    2. 您可以使用自己的凭据手动登录网站
    3. 登录完成后,将使用您的认证会话抓取内容
  • 为特定请求启用调试:即使服务器已经在运行,您也可以为特定请求启用调试模式:

    请为此认证步骤启用调试模式
    

    仅为此特定请求设置debug: true,打开浏览器窗口以便手动登录。

开发

安装依赖

npm install

安装Playwright浏览器

安装Playwright所需的浏览器:

npm run install-browser

构建服务器

npm run build

调试

使用MCP Inspector进行调试:

npm run inspector

您还可以启用可见浏览器模式进行调试:

node build/index.js --debug

相关项目

  • g-search-mcp:一个强大的Google搜索MCP服务器,支持同时使用多个关键词进行并行搜索。非常适合批量搜索操作和数据收集。

许可证

根据MIT许可证授权

Powered by DartNode

通过SSE URL连接服务
Server已在腾讯云托管,可在连接后免费调用和在线进行工具测试~
工具测试
已支持Server下的2个工具,可选择工具进行在线测试
fetch_url
Retrieve web page content from a specified URL
fetch_urls
Retrieve web page content from multiple specified URLs
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档