一句话控制 iPhone :我用 3B 小模型操控 iPhone 帮我发信息、点外卖

一句话控制 iPhone :我用 3B 小模型操控 iPhone 帮我发信息、点外卖
一句话控制 iPhone :我用 3B 小模型操控 iPhone 帮我发信息、点外卖

用自然语言控制 iPhone 的 GUI Agent ,小模型就能跑

项目地址: https://github.com/hyechow/iphone-use

做了什么

利用 Mac 上的 iPhone Mirroring 把 iPhone 投屏到电脑,通过 MCP 协议获取截图、注入触控事件,让 LLM 驱动整个交互闭环。用户说一句话,Agent 自己截图 → 理解屏幕 → 决策操作 → 循环执行,直到完成。

能干什么

操作类:把拼多多订单分享给微信好友(跨 APP )

查询类:打开微信支付汇总上周账单支出

探测模式:自动探索任意 APP 页面结构,生成可复用的知识库

演示视频都在 README 里,欢迎交流和学习~

来源: V2EX - 技术查看原文