microsoft/deberta-v3-base

🧠 AI 모델microsoft

개선된 사전 학습으로 마스크 언어 모델링에 특화된 DeBERTaV3 베이스 모델입니다.

DeBERTa(Decoding-enhanced BERT with Disentangled Attention)는 각 단어를 내용과 위치를 인코딩하는 두 벡터로 표현하는 분리된 주의 메커니즘을 도입합니다. DeBERTaV3는 V2에서 마스크 언어 모델링을 대체 토큰 감지(RTD)로 대체하여 ELECTRA와 유사하게 개선했습니다. 베이스 모델은 12개 레이어, 768 히든 크기, 12개 어텐션 헤드(1억 8,400만 파라미터)로 구성됩니다. GLUE, SQuAD 등에서 최첨단 성능을 달성합니다. HuggingFace에서 PyTorch, TensorFlow, Rust를 지원합니다.

💡하이라이트

├─향상된 RTD 사전 학습
├─분리된 어텐션 메커니즘
└─1억 8,400만 파라미터, 12개 레이어

🎯대상

├─NLP 연구자
├─머신러닝 엔지니어
└─AI 개발자

🔗링크

└─HuggingFace 모델 카드