InternVL2-2B

🧠 AI 모델OpenGVLab

OpenGVLab의 이미지-텍스트 이해를 위한 2B 경량 멀티모달 모델.

InternVL2-2B는 OpenGVLab에서 공개한 오픈소스 멀티모달 대규모 언어 모델로, 2024년 논문에서 소개된 InternVL2 시리즈의 일부입니다. 약 20억 개의 파라미터를 갖추고 있으며, 강력한 비전 인코더와 언어 모델을 통합하여 매끄러운 이미지-텍스트 이해를 가능하게 합니다. 이 모델은 시각적 질의응답, 이미지 캡션 생성, 문서 이해, 그라운디드 추론 등 다양한 멀티모달 작업을 지원합니다. InternVL2-2B는 동적 고해상도 이미지 처리와 점진적 정렬 학습 전략을 활용합니다. 다국어 대화를 지원하며, 소비자급 하드웨어에서의 배포에 최적화되어 InternVL2 라인업 중 가장 접근하기 쉬운 모델 중 하나입니다. Transformers 라이브러리에서 커스텀 코드를 사용하며 safetensors 형식을 지원합니다. arxiv:2312.14238에 설명된 InternVL 아키텍처를 기반으로 구축되었으며, 1세대 대비 OCR, 문서 파싱, 실세계 멀티모달 이해에서 상당한 개선을 이루었습니다.

💡하이라이트

├─2B 파라미터 비전-언어 모델
├─동적 고해상도 이미지 처리
├─다국어 멀티모달 지원
└─OCR 및 문서 이해

🎯대상

├─ML 연구자
├─멀티모달 AI 개발자
└─엣지 배포 엔지니어

🔗링크

├─HuggingFace 모델
└─연구 논문