Sitemcp

sitemcp 是一款基于 sitefetch 的网站抓取工具,可将网页内容转换为 MCP 服务器,支持 HTTPS 网站、自定义匹配模式、内容选择器和缓存管理,适用于文档抓取、组件库提取等场景。

76 浏览
2026-01-02 发布

详细介绍

Sitemcp 是一款强大的网站内容抓取工具,能够将静态或动态网页内容抓取并转换为 MCP 服务器,便于在本地或客户端中调用。它支持 HTTPS 网站,具备灵活的页面匹配、内容提取和缓存机制,适用于文档、组件库等场景的快速集成。

核心功能

• 支持 HTTPS 网站抓取
• 可通过 micromatch 模式匹配特定页面路径(如 /blog/**
• 支持自定义内容选择器(如 .content)以精准提取可读内容
• 提供多种工具名称策略(domainsubdomainpathname
• 支持设置最大内容长度(默认 2000 字符,可扩展至 10000+)
• 自动缓存抓取结果于 ~/.cache/sitemcp,支持禁用缓存

安装方法

可通过以下方式安装:

npm i -g sitemcp
pnpm i -g sitemcp
bun i -g sitemcp

或一次性使用(无需全局安装):

bunx sitemcp
npx sitemcp
pnpx sitemcp

使用方法

基础用法:

sitemcp https://daisyui.com

高级用法示例:

sitemcp https://vite.dev -t domain -l 10000 -m "/blog/**" -m "/guide/**" --content-selector ".content"

配置 MCP 客户端(如 Claude Desktop):

{
  "mcpServers": {
    "daisy-ui": {
      "command": "npx",
      "args": [
        "-y",
        "sitemcp",
        "https://daisyui.com",
        "-m",
        "/components/**"
      ]
    }
  }
}

提示:对于大型网站,建议先运行 sitemcp 并启用缓存,避免重复抓取。

网站抓取 内容提取 MCP服务器 文档集成 前端工具

相关服务推荐

查看更多