laion/CLIP-ViT-B-32-laion2B-s34B-b79K
🧠 AI 모델laion
LAION이 20억 개의 이미지-텍스트 쌍으로 학습한 오픈소스 CLIP ViT-B/32 모델.
이 모델은 OpenCLIP을 사용한 OpenAI CLIP의 오픈소스 구현체입니다. 이미지 인코더로 Vision Transformer(ViT-B/32)를, 텍스트 인코더로 트랜스포머를 사용합니다. LAION-2B 데이터셋(20억 이미지-텍스트 쌍)에서 340억 샘플(s34B)을 배치 크기 79K로 학습했습니다. 이미지와 텍스트 임베딩을 비교하여 제로샷 분류를 가능하게 합니다. PyTorch와 Safetensors를 지원하며 이미지 검색, 분류, 멀티모달 작업에 널리 사용됩니다.
💡하이라이트
- ├─ViT-B/32 아키텍처
- ├─20억 쌍의 이미지-텍스트 학습
- └─34B 샘플, 배치 크기 79K
🎯대상
- ├─연구자
- ├─ML 엔지니어
- └─개발자