Датасет состоит из коротких новостей семи разных категорий.
Для обучения использовалась модель distilbert/distilbert-base-uncased-finetuned-sst-2-english.
Было проведено 3 эксперимента с разными обучаемыми слоями.
- Обучался только финальный классификатор.
- Обучался классификатор и пре-классификатор.
- Обучалась вся модель.
Полностью обучаемая модель достигла лучших результатов - 96%.
Распределение предсказаний модели на проверочных данных.
Я скопировал несколько новостей из разных источников и проверил как модель предсказывает их.