jonatasgrosman/wav2vec2-large-xlsr-53-japanese

🧠 KI-Modelljonatasgrosman

Wav2Vec2-XLSR-53, auf Japanisch feinabgestimmt für modernste automatische Spracherkennung.

Das Modell basiert auf der Wav2Vec2-XLSR-53-Architektur, einem selbstüberwachten Modell, das auf 53 Sprachen vortrainiert wurde. Es wurde auf dem japanischen Teil von Common Voice feinabgestimmt, einem Crowdsourcing-Datensatz von vorgelesener Sprache. Das Modell verwendet einen Transformer-Encoder mit kontrastiven Lernzielen. Hauptmerkmale: 12 Transformer-Blöcke, 1024 versteckte Dimensionen und 4096 Feed-Forward-Größe. Die Inferenz wird über PyTorch und JAX unterstützt. Das Modell gibt zeichenweise Transkriptionen aus. Es ist besonders robust für klare Sprache und funktioniert gut bei verschiedenen Akzenten. Der Trainingsprozess nutzte die Ressourcen der XLSR-Feintuning-Woche und optimierte die Wortfehlerrate (WER). Die Checkpoints sind zur direkten Verwendung mit Hugging Faces Pipeline verfügbar.

💡Highlights

├─XLSR-53-Basis, auf Japanisch feinabgestimmt
├─3,6 Mio. Downloads auf HuggingFace
└─Transformer-basierte hochpräzise ASR

🎯Für

├─Spracherkennungsentwickler
├─japanische NLP-Forscher
└─KI-Enthusiasten

🔗Links

└─Modellkarte auf Hugging Face