lxe/llavavision

📦 오픈 소스 프로젝트lxe

LLaVA와 llama.cpp 기반의 로컬 프라이빗 'Be My Eyes' 웹 애플리케이션으로 실시간 시각 보조 기능을 제공합니다.

Llavavision은 로컬 컴퓨터 비전 모델과 최종 사용자 접근성 사이의 간극을 메우기 위해 설계된 간결한 웹 인터페이스입니다. llama.cpp와의 통합을 통해 LLaVA(Large Language-and-Vision Assistant) 모델을 로컬에서 실행하여 민감한 시각 데이터가 사용자 기기 내에 안전하게 유지되도록 합니다. JavaScript로 구축된 이 프로젝트는 카메라 입력을 캡처하여 백엔드로 전송하고 멀티모달 추론을 수행하는 깔끔하고 반응형인 웹 인터페이스를 제공합니다. 주요 기술적 특징으로는 외부 API 호출로 인한 지연 시간을 제거하고 데이터 주권을 보장하는 로컬 모델 실행 지원이 있습니다. 개인정보 보호를 중시하는 보조 기술을 구축하려는 개발자나 로컬 멀티모달 LLM 배포를 실험하는 사용자에게 특히 유용합니다. 모듈식 아키텍처를 채택하여 사용자의 하드웨어 사양에 맞춰 모델을 교체하거나 llama.cpp 환경 내에서 매개변수를 조정할 수 있습니다.

💡하이라이트

├─llama.cpp 기반 로컬 LLaVA 추론
├─개인정보 보호 우선 시각 보조
└─로컬 모델용 웹 기반 인터페이스

🎯대상

├─접근성 개발자
└─개인정보 보호 중심 AI 애호가

🔗링크

└─GitHub 저장소