
niuzaisheng/ScreenAgent
🤖 AI 智能体niuzaisheng
一款由视觉语言模型驱动的智能体,能够实现自主计算机控制与屏幕交互。
ScreenAgent 将屏幕视为大语言模型的视觉输入,代表了自主计算机控制领域的重大进展。与依赖静态元素选择器的传统自动化脚本不同,ScreenAgent 利用视觉感知来动态解读 UI 布局、按钮和文本。该框架通过处理屏幕截图来生成可执行的命令,使其能够自主导航应用程序、浏览网页并管理系统任务。其核心技术创新包括一个专门的反馈循环,允许智能体观察操作结果,从而实现错误纠正和多步推理。这种方法使其能够高度适应各种操作系统和软件环境,而无需与底层 API 进行深度集成。该仓库提供了部署此类智能体所需的 Python 基础设施,是研究人员和开发者探索多模态智能体工作流的基础工具。
💡核心亮点
- ├─IJCAI-24 发表的学术研究成果
- ├─基于 VLM 的 UI 界面导航
- └─自主鼠标与键盘控制能力
🎯适用人群
- ├─AI 研究人员
- ├─自动化工程师
- └─机器人开发者