Модели путают склонения, падежи и т.д. #26

NeuralAIM · 2023-08-26T21:36:28Z

Примеры вывода модели:

Вы можете использовать их в любой ситуации, где **вас** требуется фамилия.
вас - вам

Моё любимое животное - это **кота**.
кота - кот

Почему бы и **ты** не рассказать мне о том, что тебе нравится делать в свободное время?
ты - тебе

И так далее...

Проверял 7b/13b | v1/v2 используя ggml модели со стандартными настройками.

Пытался изменить настройки, но положительных результатов не дало 😄

The text was updated successfully, but these errors were encountered:

AlexTracks · 2023-09-01T15:17:10Z

Поддерживаю, данная проблема у меня тоже.

И планируется выпуск 70b+ моделей?
Новые квантования?
Переделка под gguf?

IlyaGusev · 2023-09-01T15:48:59Z

Привет, это к сожалению норма, и 70B это не полечит. Модели на основе Лламы без LM дообучения на большом русском корпусе нормально склонять слова не научатся. Смотрите в сторону ГигаСайги.

Насчёт 70B: я сейчас пытаюсь сократить датасет, чтобы это вышло дешевле. В README есть реквизиты, по которым можно задонатить. Через пару дней начну обучать, через неделю будет готово.

Новые квантования как будто и не нужны особо. GGUF будет.

Andrew-MK · 2023-09-03T15:18:19Z

А как в индустрии принято проверять модели на адекватность владения русскоязычной письменностью?

Я имею ввиду не сообразительность модели на задания (вход) на русском языке с ответами в духе да/нет или цитатами из входного контекста, как делается в RussianSuperGLUE, а как в данной теме, что в целом модель хорошо на русском языке пишет.

Если перплексию мерять, то как (просто взять тексты нужного стиля и какая модель выдаст меньшую перплексию та и лучше владеет русским языком в нужном стиле)?
Кажется что бенчмарки по реферированию/перефразированию могли бы помочь в данной оценке, но после Секреты генерирующего реферирования текстов обзор на метрики и обзор на доступные наборы данных к большому сожалению не вышел в свет и не ясно как такое делать.
Команда SberDevices также выпустила MMLU in Russian со встроенной поддержкой Сайги, но не опубликовала результаты замеров и кажется этот тест также покажет сообразительность, а не не какая модель лучше владеет/пишет на русском языке.

IlyaGusev · 2023-09-03T22:12:12Z

Вопрос хороший.

Перплексию можно измерять только между моделями с одинаковыми токенизаторами, это убивает весь метод.
Нет, большинство автоматических метрик, типа chrF, не слишком чувствительны к грамматическим ошибками.
Верно, MMLU вообще никак не связан с владением языком. Результаты замеров у них есть в канале, там чуть хуже базовой модели.

Есть RuCoLA, которая именно про грамматичность, но она к сожалению больше про классификацию, а не про генерацию.

С моей точки зрения вот какой датасет нужен: дан префикс и два варианта продолжения, из которых один корректный, а один - некорректный. И модели нужно выбрать. Что-то типа вот этого или этого. Можно даже взять отрицательные примеры из RuCoLA, и сделать из них пары.

Важно, чтобы примеры использовали только левый контекст.

IlyaGusev · 2023-09-03T22:14:16Z

А, и 70B вышла: https://huggingface.co/IlyaGusev/saiga2_70b_lora

saiga2_70b vs gpt-3.5-turbo: 91-10-75

NeuralAIM mentioned this issue Oct 3, 2023

Mistral 7B - лучше в русском чем saiga2_7b #30

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Модели путают склонения, падежи и т.д. #26

Модели путают склонения, падежи и т.д. #26

NeuralAIM commented Aug 26, 2023

AlexTracks commented Sep 1, 2023

IlyaGusev commented Sep 1, 2023 •

edited

Loading

Andrew-MK commented Sep 3, 2023

IlyaGusev commented Sep 3, 2023

IlyaGusev commented Sep 3, 2023 •

edited

Loading

Модели путают склонения, падежи и т.д. #26

Модели путают склонения, падежи и т.д. #26

Comments

NeuralAIM commented Aug 26, 2023

Примеры вывода модели:

AlexTracks commented Sep 1, 2023

IlyaGusev commented Sep 1, 2023 • edited Loading

Andrew-MK commented Sep 3, 2023

IlyaGusev commented Sep 3, 2023

IlyaGusev commented Sep 3, 2023 • edited Loading

IlyaGusev commented Sep 1, 2023 •

edited

Loading

IlyaGusev commented Sep 3, 2023 •

edited

Loading