首页
学习
活动
专区
圈层
工具
发布
MCP广场 >详情页
Claude Vision & GPT-4 Vision图像识别工具2026-05-29947分享添加福利群:解决AI开发者的「MCP实战痛点」
使用Anthropic Claude Vision和OpenAI GPT-4 Vision API提供图像识别功能,支持多种图像格式,并通过Tesseract OCR提供可选的文本提取。
By mario-andreschak
2026-05-29947
github
详情内容

MCP 图像识别服务器

一个使用Anthropic和OpenAI视觉API提供图像识别功能的MCP服务器。版本0.1.2。

功能特性

  • 使用Anthropic Claude Vision或OpenAI GPT-4 Vision进行图像描述
  • 支持多种图像格式(JPEG、PNG、GIF、WebP)
  • 可配置的主备提供方
  • 支持Base64和基于文件的图像输入
  • 可选使用Tesseract OCR进行文本提取

系统要求

  • Python 3.8或更高版本
  • Tesseract OCR(可选)- 文本提取功能需要
    • Windows:从UB-Mannheim/tesseract下载安装
    • Linux:sudo apt-get install tesseract-ocr
    • macOS:brew install tesseract

安装步骤

  1. 克隆仓库:
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
  1. 创建并配置环境文件:
cp .env.example .env
# 使用您的API密钥和偏好编辑.env文件
  1. 构建项目:
build.bat

使用方法

运行服务器

使用Python启动服务器:

python -m image_recognition_server.server

或使用批处理文件启动:

run.bat server

使用MCP Inspector以开发模式启动服务器:

run.bat debug

可用工具

  1. describe_image

    • 输入:Base64编码的图像数据和MIME类型
    • 输出:图像的详细描述
  2. describe_image_from_file

    • 输入:图像文件路径
    • 输出:图像的详细描述

环境配置

  • ANTHROPIC_API_KEY:您的Anthropic API密钥
  • OPENAI_API_KEY:您的OpenAI API密钥
  • VISION_PROVIDER:主视觉提供方(anthropicopenai
  • FALLBACK_PROVIDER:可选备用提供方
  • LOG_LEVEL:日志级别(DEBUG、INFO、WARNING、ERROR)
  • ENABLE_OCR:启用Tesseract OCR文本提取(truefalse
  • TESSERACT_CMD:Tesseract可执行文件的自定义路径(可选)
  • OPENAI_MODEL:OpenAI模型(默认:gpt-4o-mini)。可以使用OpenRouter格式指定其他模型(例如anthropic/claude-3.5-sonnet:beta
  • OPENAI_BASE_URL:OpenAI API的自定义基础URL(可选)。使用OpenRouter时设置为https://openrouter.ai/api/v1
  • OPENAI_TIMEOUT:OpenAI API的自定义超时时间(秒,可选)

使用OpenRouter

OpenRouter允许您使用OpenAI API格式访问各种模型。要使用OpenRouter,请按照以下步骤操作:

  1. 从OpenRouter获取OpenAI API密钥
  2. 在.env文件中将OPENAI_API_KEY设置为您的OpenRouter API密钥
  3. OPENAI_BASE_URL设置为https://openrouter.ai/api/v1
  4. OPENAI_MODEL中使用OpenRouter格式设置所需模型(例如anthropic/claude-3.5-sonnet:beta
  5. VISION_PROVIDER设置为openai

默认模型

  • Anthropic:claude-3.5-sonnet-beta
  • OpenAI:gpt-4o-mini
  • OpenRouter:在OPENAI_MODEL中使用anthropic/claude-3.5-sonnet:beta格式

开发

运行测试

运行所有测试:

run.bat test

运行特定测试套件:

run.bat test server
run.bat test anthropic
run.bat test openai

Docker支持

构建Docker镜像:

docker build -t mcp-image-recognition .

运行容器:

docker run -it --env-file .env mcp-image-recognition

许可证

MIT许可证 - 详情请参阅LICENSE文件

发布历史

  • 0.1.2(2025-02-20):改进OCR错误处理并添加OCR功能的全面测试覆盖
  • 0.1.1(2025-02-19):添加Tesseract OCR支持用于图像文本提取(可选功能)
  • 0.1.0(2025-02-19):初始版本,支持Anthropic和OpenAI视觉功能
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档