niuzaisheng/ScreenAgent

🤖 AI Agentniuzaisheng

Ein durch visuelle Sprachmodelle gesteuerter Agent zur autonomen Computerbedienung und Bildschirminteraktion.

ScreenAgent stellt einen bedeutenden Fortschritt bei der autonomen Computersteuerung dar, indem der Bildschirm als visuelle Eingabe für Large Language Models behandelt wird. Im Gegensatz zu herkömmlichen Automatisierungsskripten, die auf statischen Elementselektoren basieren, nutzt ScreenAgent visuelle Wahrnehmung, um UI-Layouts, Schaltflächen und Texte dynamisch zu interpretieren. Das Framework verarbeitet Bildschirmaufnahmen, um ausführbare Befehle zu generieren, wodurch es Anwendungen navigieren, im Web surfen und Systemaufgaben autonom verwalten kann. Zu den technischen Innovationen gehört eine spezielle Feedbackschleife, die es dem Agenten ermöglicht, die Ergebnisse seiner Aktionen zu beobachten, was Fehlerkorrekturen und mehrstufiges logisches Denken ermöglicht. Dieser Ansatz macht das System hochgradig anpassungsfähig an verschiedene Betriebssysteme und Softwareumgebungen, ohne dass eine tiefe Integration in zugrunde liegende APIs erforderlich ist. Das Repository stellt die notwendige Python-Infrastruktur bereit, um diese Agenten bereitzustellen, und dient als grundlegendes Werkzeug für Forscher und Entwickler, die sich für multimodale Agenten-Workflows interessieren.

💡Highlights

├─IJCAI-24 publizierte Forschung
├─VLM-gesteuerte UI-Navigation
└─Autonome Maus/Tastatur-Steuerung

🎯Für

├─KI-Forscher
├─Automatisierungsingenieure
└─Robotik-Entwickler

🔗Links

└─GitHub Repository