FacebookAI/roberta-base
🧠 AIモデルFacebookAI
RoBERTa-base: BERTの事前学習を堅牢に最適化したアプローチ。
RoBERTa-baseはBERT-baseと同じアーキテクチャ(12層、768隠れユニット、12アテンションヘッド、1億2500万パラメータ)を使用しています。160GBの英語テキスト(BookCorpus、CC-News、OpenWebText、Storiesを含む)で事前学習され、動的マスキング(マスキングパターンがエポックごとに変化)を採用。500Kステップ、大規模バッチサイズ8Kでトレーニングされ、優れたパープレキシティと下流性能を実現。fill-maskタスクをサポートし、分類、QA、系列ラベリングなどにファインチューニング可能。PyTorch、TensorFlow、JAX、safetensorsに対応。
💡ハイライト
- ├─1億2500万パラメータ、12層Transformer
- └─最適化されたBERT事前学習(RoBERTa)
🎯対象
- ├─NLP研究者
- ├─AI開発者
- └─データサイエンティスト