首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页
学习
活动
专区
圈层
工具
MCP广场
MCP广场 >详情页
dataset-viewer2025-05-270分享
github
启用与 Hugging Face 数据集查看器 API 的交互,允许用户浏览、搜索、过滤和分析托管在 Hugging Face Hub 上的数据集。
By privetin
2025-05-270
github
详情内容

数据集查看器 MCP 服务器

一个用于与Hugging Face 数据集查看器 API交互的MCP服务器,提供浏览和分析托管在Hugging Face Hub上的数据集的功能。

功能特性

资源支持

  • 使用dataset:// URI方案访问Hugging Face数据集
  • 支持数据集配置和分割(split)
  • 提供数据集内容的分页访问
  • 处理私有数据集的认证
  • 支持搜索和过滤数据集内容
  • 提供数据集统计和分析功能

提供的工具

服务器提供以下工具:

  1. validate

    • 检查数据集是否存在且可访问
    • 参数:
      • dataset:数据集标识符(例如'stanfordnlp/imdb')
      • auth_token(可选):用于私有数据集
  2. get_info

    • 获取数据集的详细信息
    • 参数:
      • dataset:数据集标识符
      • auth_token(可选):用于私有数据集
  3. get_rows

    • 获取数据集的分页内容
    • 参数:
      • dataset:数据集标识符
      • config:配置名称
      • split:分割(split)名称
      • page(可选):页码(从0开始)
      • auth_token(可选):用于私有数据集
  4. get_first_rows

    • 获取数据集分割(split)的前几行
    • 参数:
      • dataset:数据集标识符
      • config:配置名称
      • split:分割(split)名称
      • auth_token(可选):用于私有数据集
  5. get_statistics

    • 获取数据集分割(split)的统计信息
    • 参数:
      • dataset:数据集标识符
      • config:配置名称
      • split:分割(split)名称
      • auth_token(可选):用于私有数据集
  6. search_dataset

    • 在数据集中搜索文本
    • 参数:
      • dataset:数据集标识符
      • config:配置名称
      • split:分割(split)名称
      • query:要搜索的文本
      • auth_token(可选):用于私有数据集
  7. filter

    • 使用类似SQL的条件过滤行
    • 参数:
      • dataset:数据集标识符
      • config:配置名称
      • split:分割(split)名称
      • where:SQL WHERE子句(例如"score > 0.5")
      • orderby(可选):SQL ORDER BY子句
      • page(可选):页码(从0开始)
      • auth_token(可选):用于私有数据集
  8. get_parquet

    • 以Parquet格式下载整个数据集
    • 参数:
      • dataset:数据集标识符
      • auth_token(可选):用于私有数据集

安装

前提条件

  • Python 3.12或更高版本
  • uv - 快速的Python包安装程序和解析器

设置步骤

  1. 克隆仓库:
git clone https://github.com/privetin/dataset-viewer.git
cd dataset-viewer
  1. 创建虚拟环境并安装:
# 创建虚拟环境
uv venv

# 激活虚拟环境
# 在Unix系统上:
source .venv/bin/activate
# 在Windows系统上:
.venv\Scripts\activate

# 以开发模式安装
uv add -e .

配置

环境变量

  • HUGGINGFACE_TOKEN:您的Hugging Face API令牌,用于访问私有数据集

Claude Desktop集成

将以下内容添加到您的Claude Desktop配置文件中:

在Windows上:%APPDATA%\Claude\claude_desktop_config.json

在MacOS上:~/Library/Application Support/Claude/claude_desktop_config.json

{
  "mcpServers": {
    "dataset-viewer": {
      "command": "uv",
      "args": [
        "--directory",
        "parent_to_repo/dataset-viewer",
        "run",
        "dataset-viewer"
      ]
    }
  }
}

许可证

MIT许可证 - 详情请参见LICENSE文件

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档