distilbert/distilbert-base-uncased

🧠 AIモデルdistilbert

軽量な蒸留BERTのマスク言語モデル、40%小型化、60%高速化。

DistilBERT base uncasedは、マスク言語モデリングの目的で知識蒸留を用いて学習されたトランスフォーマーモデルです。パラメータ数は66M（BERT baseは110M）、層数は6（BERT baseは12）、隠れ層サイズは768です。GLUEベンチマークでBERTの性能の97%を達成しながら、サイズは40%小さく、速度は60%高速です。PyTorch、TensorFlow、JAX、Rust（Candle経由）をサポートします。uncasedバージョンはテキストを小文字化し、アクセントを除去します。DistilBERTはリソース制約のある環境に最適で、多くのNLPタスクの強力なベースラインとして機能します。

💡ハイライト

├─66Mパラメータ、6層
├─BERT性能の97%
└─40%小型化、60%高速化

🎯対象

├─NLPエンジニア
├─AI研究者
└─学生

🔗リンク

└─モデルカード