laion/CLIP-ViT-B-32-laion2B-s34B-b79K

🧠 AI 모델laion

LAION이 20억 개의 이미지-텍스트 쌍으로 학습한 오픈소스 CLIP ViT-B/32 모델.

이 모델은 OpenCLIP을 사용한 OpenAI CLIP의 오픈소스 구현체입니다. 이미지 인코더로 Vision Transformer(ViT-B/32)를, 텍스트 인코더로 트랜스포머를 사용합니다. LAION-2B 데이터셋(20억 이미지-텍스트 쌍)에서 340억 샘플(s34B)을 배치 크기 79K로 학습했습니다. 이미지와 텍스트 임베딩을 비교하여 제로샷 분류를 가능하게 합니다. PyTorch와 Safetensors를 지원하며 이미지 검색, 분류, 멀티모달 작업에 널리 사용됩니다.

💡하이라이트

├─ViT-B/32 아키텍처
├─20억 쌍의 이미지-텍스트 학습
└─34B 샘플, 배치 크기 79K

🎯대상

├─연구자
├─ML 엔지니어
└─개발자

🔗링크

└─HuggingFace 모델 페이지