niuzaisheng/ScreenAgent

🤖 AI 智能体niuzaisheng

一款由视觉语言模型驱动的智能体，能够实现自主计算机控制与屏幕交互。

ScreenAgent 将屏幕视为大语言模型的视觉输入，代表了自主计算机控制领域的重大进展。与依赖静态元素选择器的传统自动化脚本不同，ScreenAgent 利用视觉感知来动态解读 UI 布局、按钮和文本。该框架通过处理屏幕截图来生成可执行的命令，使其能够自主导航应用程序、浏览网页并管理系统任务。其核心技术创新包括一个专门的反馈循环，允许智能体观察操作结果，从而实现错误纠正和多步推理。这种方法使其能够高度适应各种操作系统和软件环境，而无需与底层 API 进行深度集成。该仓库提供了部署此类智能体所需的 Python 基础设施，是研究人员和开发者探索多模态智能体工作流的基础工具。

💡核心亮点

├─IJCAI-24 发表的学术研究成果
├─基于 VLM 的 UI 界面导航
└─自主鼠标与键盘控制能力

🎯适用人群

├─AI 研究人员
├─自动化工程师
└─机器人开发者

🔗链接

└─GitHub 仓库