FacebookAI/roberta-base

🧠 AIモデルFacebookAI

RoBERTa-base: BERTの事前学習を堅牢に最適化したアプローチ。

RoBERTa-baseはBERT-baseと同じアーキテクチャ（12層、768隠れユニット、12アテンションヘッド、1億2500万パラメータ）を使用しています。160GBの英語テキスト（BookCorpus、CC-News、OpenWebText、Storiesを含む）で事前学習され、動的マスキング（マスキングパターンがエポックごとに変化）を採用。500Kステップ、大規模バッチサイズ8Kでトレーニングされ、優れたパープレキシティと下流性能を実現。fill-maskタスクをサポートし、分類、QA、系列ラベリングなどにファインチューニング可能。PyTorch、TensorFlow、JAX、safetensorsに対応。

💡ハイライト

├─1億2500万パラメータ、12層Transformer
└─最適化されたBERT事前学習（RoBERTa）

🎯対象

├─NLP研究者
├─AI開発者
└─データサイエンティスト

🔗リンク

└─HuggingFace上のモデル