详细介绍
Sitemcp 是一款强大的网站内容抓取工具,能够将静态或动态网页内容抓取并转换为 MCP 服务器,便于在本地或客户端中调用。它支持 HTTPS 网站,具备灵活的页面匹配、内容提取和缓存机制,适用于文档、组件库等场景的快速集成。
核心功能
• 支持 HTTPS 网站抓取
• 可通过 micromatch 模式匹配特定页面路径(如 /blog/**)
• 支持自定义内容选择器(如 .content)以精准提取可读内容
• 提供多种工具名称策略(domain、subdomain、pathname)
• 支持设置最大内容长度(默认 2000 字符,可扩展至 10000+)
• 自动缓存抓取结果于 ~/.cache/sitemcp,支持禁用缓存
安装方法
可通过以下方式安装:
npm i -g sitemcp
pnpm i -g sitemcp
bun i -g sitemcp或一次性使用(无需全局安装):
bunx sitemcp
npx sitemcp
pnpx sitemcp使用方法
基础用法:
sitemcp https://daisyui.com高级用法示例:
sitemcp https://vite.dev -t domain -l 10000 -m "/blog/**" -m "/guide/**" --content-selector ".content"配置 MCP 客户端(如 Claude Desktop):
{
"mcpServers": {
"daisy-ui": {
"command": "npx",
"args": [
"-y",
"sitemcp",
"https://daisyui.com",
"-m",
"/components/**"
]
}
}
}提示:对于大型网站,建议先运行 sitemcp 并启用缓存,避免重复抓取。