
makcedward/nlpaug
🔧 Инструментmakcedward
Библиотека для аугментации данных NLP с преобразованиями на уровне символов, слов и предложений.
nlpaug поддерживает как правила, так и методы аугментации на основе моделей. Методы на основе правил включают случайную вставку, замену, перестановку и удаление. Методы на основе моделей используют предобученные модели, такие как word2vec, BERT и GPT, для контекстной замены, а также обратный перевод с помощью моделей перевода. Библиотека предлагает простой API, совместимый с scikit-learn и transformers, и может аугментировать тексты для таких задач, как классификация текста, NER и анализ тональности. Также включает аугментацию для устойчивости к состязательным атакам. Имея более 4,6 тыс. звезд на GitHub, широко используется в сообществе NLP.
💡Основное
- ├─4658 звезд на GitHub
- ├─Аугментация на основе BERT и GPT
- └─Операции на уровне символов, слов и предложений
🎯Для
- ├─Исследователи NLP
- ├─специалисты по данным
- └─инженеры машинного обучения