microsoft/Florence-2-base

🧠 AI 모델microsoft

이미지 캡셔닝, OCR, 시각적 QA를 위한 마이크로소프트의 오픈소스 비전-언어 모델.

Florence-2-base는 마이크로소프트 리서치의 비전-언어 기반 모델로, 54억 개의 주석이 포함된 대규모 FLD-5B 데이터셋으로 학습되었습니다. 멀티태스크 학습 방식을 채택하여 캡셔닝, 객체 감지, OCR, 영역 수준 작업을 통합합니다. DaViT 비전 인코더와 GPT-2 유사 텍스트 디코더를 사용하며, 224x224 해상도로 이미지를 처리합니다. 경량(0.23B 파라미터)이면서 COCO Captioning 및 TextCaps 같은 벤치마크에서 경쟁력 있는 성능을 달성합니다. 텍스트 프리픽스(예: '<CAPTION>', '<OCR>')를 통한 유연한 프롬프트 엔지니어링을 지원하며, MIT 라이선스로 배포되어 HuggingFace 트랜스포머 및 엔드포인트와 호환됩니다.

💡하이라이트

├─0.23B 파라미터, 효율적
├─멀티태스크: 캡션, 감지, OCR
└─54억 개 주석으로 학습

🎯대상

├─컴퓨터 비전 연구자
├─AI 제품 개발자
└─MLOps 엔지니어

🔗링크

└─HuggingFace 모델 카드