详细介绍
Mobile MCP 是一个基于 Model Context Protocol (MCP) 的服务器工具,旨在通过统一的接口实现 iOS 和 Android 设备的高效自动化操作。该工具无需用户深入了解特定平台知识,即可完成应用测试、数据录入以及多步骤任务的自动化。其核心优势在于支持无障碍树交互、LLM 友好型设计、结构化数据提取和视觉感知能力,适用于多种自动化场景。
核心功能
Mobile MCP 提供了丰富的功能,支持多种移动设备操作,涵盖应用管理、屏幕交互、网络设置、定位模拟等多个方面。其主要功能包括:
- 轻量且快速:利用原生无障碍树进行交互,大幅提高响应速度。
- LLM 友好型设计:无需复杂计算机视觉模型,直接解析无障碍标签。
- 视觉感知能力:根据屏幕实际渲染内容决定下一步动作,提供更智能的操作体验。
- 确定性工具应用:减少纯坐标方法中的模糊性,优先采用结构化数据。
- 结构化数据提取:可以提取屏幕上任何可见内容的结构化数据。
安装方法
安装 Mobile MCP 需要先确保已安装 Node.js 和所需的移动开发 SDK(如 Xcode 或 Android SDK)。然后通过以下命令安装服务器:
{
"mcpServers": {
"mobile-mcp": {
"command": "npx",
"args": ["-y", "@mobilenext/mobile-mcp@latest"]
}
}
}安装完成后,可以通过以下命令启动服务器:
npx @mobilenext/mobile-mcp@latest启动后,连接设备或模拟器,并确保其正常工作。
使用方法
Mobile MCP 提供了丰富的命令,支持多种操作方式,包括基于辅助功能定位器和坐标进行操作。以下是一些常用命令及其使用示例:
- mobile_launch_app:启动指定的应用程序。
- mobile_type_text:在当前焦点位置输入文本。
- mobile_get_screen_size:获取设备屏幕尺寸。
- mobile_list_elements_on_screen:列出屏幕上所有元素及其坐标。
- mobile_click_element_by_text:根据文本内容点击指定的 UI 元素。
- mobile_swipe:在两个坐标点之间执行滑动操作。
- mobile_take_screenshot:截取屏幕并保存截图。
使用示例
以下是几个典型的使用场景和代码示例:
mobile_launch_app(com.google.android.keep) -> mobile_type_text("自动化测试", true)该示例启动 Google Keep 应用,并在搜索框中输入关键词“自动化测试”。
mobile_take_screenshot() -> mobile_list_elements_on_screen()该示例对当前屏幕进行截图,并提取屏幕上的按钮名称。
适用场景
Mobile MCP 适用于多种自动化场景,包括:
- 应用测试
- 数据录入
- 跨平台任务流自动化
- 需要大规模执行的业务场景
注意事项
使用 Mobile MCP 时需注意以下几点:
- 依赖于设备驱动程序的正确安装。
- 某些特殊硬件操作可能有限制。
- 需要网络环境支持。
Mobile MCP 通过统一的接口简化了移动设备的自动化操作,为开发者和测试人员提供了高效、灵活的工具。