Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Модели путают склонения, падежи и т.д. #26

Open
NeuralAIM opened this issue Aug 26, 2023 · 5 comments
Open

Comments

@NeuralAIM
Copy link

Примеры вывода модели:

Вы можете использовать их в любой ситуации, где **вас** требуется фамилия.
вас - вам

Моё любимое животное - это **кота**.
кота - кот

Почему бы и **ты** не рассказать мне о том, что тебе нравится делать в свободное время?
ты - тебе

И так далее...

Проверял 7b/13b | v1/v2 используя ggml модели со стандартными настройками.

Пытался изменить настройки, но положительных результатов не дало 😄

@AlexTracks
Copy link

Поддерживаю, данная проблема у меня тоже.

И планируется выпуск 70b+ моделей?
Новые квантования?
Переделка под gguf?

@IlyaGusev
Copy link
Owner

IlyaGusev commented Sep 1, 2023

Привет, это к сожалению норма, и 70B это не полечит. Модели на основе Лламы без LM дообучения на большом русском корпусе нормально склонять слова не научатся. Смотрите в сторону ГигаСайги.

Насчёт 70B: я сейчас пытаюсь сократить датасет, чтобы это вышло дешевле. В README есть реквизиты, по которым можно задонатить. Через пару дней начну обучать, через неделю будет готово.

Новые квантования как будто и не нужны особо. GGUF будет.

@Andrew-MK
Copy link

А как в индустрии принято проверять модели на адекватность владения русскоязычной письменностью?

Я имею ввиду не сообразительность модели на задания (вход) на русском языке с ответами в духе да/нет или цитатами из входного контекста, как делается в RussianSuperGLUE, а как в данной теме, что в целом модель хорошо на русском языке пишет.

  • Если перплексию мерять, то как (просто взять тексты нужного стиля и какая модель выдаст меньшую перплексию та и лучше владеет русским языком в нужном стиле)?
  • Кажется что бенчмарки по реферированию/перефразированию могли бы помочь в данной оценке, но после Секреты генерирующего реферирования текстов обзор на метрики и обзор на доступные наборы данных к большому сожалению не вышел в свет и не ясно как такое делать.
  • Команда SberDevices также выпустила MMLU in Russian со встроенной поддержкой Сайги, но не опубликовала результаты замеров и кажется этот тест также покажет сообразительность, а не не какая модель лучше владеет/пишет на русском языке.

@IlyaGusev
Copy link
Owner

Вопрос хороший.

  • Перплексию можно измерять только между моделями с одинаковыми токенизаторами, это убивает весь метод.
  • Нет, большинство автоматических метрик, типа chrF, не слишком чувствительны к грамматическим ошибками.
  • Верно, MMLU вообще никак не связан с владением языком. Результаты замеров у них есть в канале, там чуть хуже базовой модели.

Есть RuCoLA, которая именно про грамматичность, но она к сожалению больше про классификацию, а не про генерацию.

С моей точки зрения вот какой датасет нужен: дан префикс и два варианта продолжения, из которых один корректный, а один - некорректный. И модели нужно выбрать. Что-то типа вот этого или этого. Можно даже взять отрицательные примеры из RuCoLA, и сделать из них пары.

Важно, чтобы примеры использовали только левый контекст.

@IlyaGusev
Copy link
Owner

IlyaGusev commented Sep 3, 2023

А, и 70B вышла: https://huggingface.co/IlyaGusev/saiga2_70b_lora

saiga2_70b vs gpt-3.5-turbo: 91-10-75

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants