niuzaisheng/ScreenAgent

🤖 AI 에이전트niuzaisheng

시각 언어 모델을 활용하여 컴퓨터 화면을 자율적으로 제어하고 상호작용하는 AI 에이전트.

ScreenAgent는 화면을 거대 언어 모델의 시각적 입력으로 처리함으로써 자율 컴퓨터 제어 분야의 중요한 진전을 보여줍니다. 정적 요소 선택기에 의존하는 기존 자동화 스크립트와 달리, ScreenAgent는 시각적 인식을 통해 UI 레이아웃, 버튼, 텍스트를 동적으로 해석합니다. 이 프레임워크는 화면 캡처를 처리하여 실행 가능한 명령을 생성하며, 이를 통해 애플리케이션 탐색, 웹 브라우징, 시스템 작업 관리를 자율적으로 수행합니다. 주요 기술적 혁신으로는 작업 결과를 관찰하여 오류를 수정하고 다단계 추론을 가능하게 하는 특수 피드백 루프가 있습니다. 이러한 접근 방식은 기본 API와의 심층적인 통합 없이도 다양한 운영 체제 및 소프트웨어 환경에 적응할 수 있게 합니다. 이 저장소는 이러한 에이전트를 배포하는 데 필요한 Python 인프라를 제공하며, 멀티모달 에이전트 워크플로우에 관심 있는 연구자와 개발자에게 기초적인 도구가 됩니다.

💡하이라이트

├─IJCAI-24 발표 연구 논문
├─VLM 기반의 UI 탐색 기능
└─자율적인 마우스 및 키보드 제어

🎯대상

├─AI 연구원
├─자동화 엔지니어
└─로봇 공학 개발자

🔗링크

└─GitHub 저장소