MCP 图像识别服务器

一个使用Anthropic和OpenAI视觉API提供图像识别功能的MCP服务器。版本0.1.2。

功能特性

使用Anthropic Claude Vision或OpenAI GPT-4 Vision进行图像描述
支持多种图像格式（JPEG、PNG、GIF、WebP）
可配置的主备提供方
支持Base64和基于文件的图像输入
可选使用Tesseract OCR进行文本提取

系统要求

Python 3.8或更高版本
Tesseract OCR（可选）- 文本提取功能需要
- Windows：从UB-Mannheim/tesseract下载安装
- Linux：sudo apt-get install tesseract-ocr
- macOS：brew install tesseract

安装步骤

克隆仓库：

git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition

创建并配置环境文件：

cp .env.example .env
# 使用您的API密钥和偏好编辑.env文件

构建项目：

build.bat

使用方法

运行服务器

使用Python启动服务器：

python -m image_recognition_server.server

或使用批处理文件启动：

run.bat server

使用MCP Inspector以开发模式启动服务器：

run.bat debug

可用工具

describe_image
- 输入：Base64编码的图像数据和MIME类型
- 输出：图像的详细描述
describe_image_from_file
- 输入：图像文件路径
- 输出：图像的详细描述

环境配置

ANTHROPIC_API_KEY：您的Anthropic API密钥
OPENAI_API_KEY：您的OpenAI API密钥
VISION_PROVIDER：主视觉提供方（anthropic或openai）
FALLBACK_PROVIDER：可选备用提供方
LOG_LEVEL：日志级别（DEBUG、INFO、WARNING、ERROR）
ENABLE_OCR：启用Tesseract OCR文本提取（true或false）
TESSERACT_CMD：Tesseract可执行文件的自定义路径（可选）
OPENAI_MODEL：OpenAI模型（默认：gpt-4o-mini）。可以使用OpenRouter格式指定其他模型（例如anthropic/claude-3.5-sonnet:beta）
OPENAI_BASE_URL：OpenAI API的自定义基础URL（可选）。使用OpenRouter时设置为https://openrouter.ai/api/v1
OPENAI_TIMEOUT：OpenAI API的自定义超时时间（秒，可选）

使用OpenRouter

OpenRouter允许您使用OpenAI API格式访问各种模型。要使用OpenRouter，请按照以下步骤操作：

从OpenRouter获取OpenAI API密钥
在.env文件中将OPENAI_API_KEY设置为您的OpenRouter API密钥
将OPENAI_BASE_URL设置为https://openrouter.ai/api/v1
在OPENAI_MODEL中使用OpenRouter格式设置所需模型（例如anthropic/claude-3.5-sonnet:beta）
将VISION_PROVIDER设置为openai

默认模型

Anthropic：claude-3.5-sonnet-beta
OpenAI：gpt-4o-mini
OpenRouter：在OPENAI_MODEL中使用anthropic/claude-3.5-sonnet:beta格式

开发

运行测试

运行所有测试：

run.bat test

运行特定测试套件：

run.bat test server
run.bat test anthropic
run.bat test openai

Docker支持

构建Docker镜像：

docker build -t mcp-image-recognition .

运行容器：

docker run -it --env-file .env mcp-image-recognition

许可证

MIT许可证 - 详情请参阅LICENSE文件

发布历史

0.1.2（2025-02-20）：改进OCR错误处理并添加OCR功能的全面测试覆盖
0.1.1（2025-02-19）：添加Tesseract OCR支持用于图像文本提取（可选功能）
0.1.0（2025-02-19）：初始版本，支持Anthropic和OpenAI视觉功能