-
Notifications
You must be signed in to change notification settings - Fork 50
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Модели путают склонения, падежи и т.д. #26
Comments
Поддерживаю, данная проблема у меня тоже. И планируется выпуск 70b+ моделей? |
Привет, это к сожалению норма, и 70B это не полечит. Модели на основе Лламы без LM дообучения на большом русском корпусе нормально склонять слова не научатся. Смотрите в сторону ГигаСайги. Насчёт 70B: я сейчас пытаюсь сократить датасет, чтобы это вышло дешевле. В README есть реквизиты, по которым можно задонатить. Через пару дней начну обучать, через неделю будет готово. Новые квантования как будто и не нужны особо. GGUF будет. |
А как в индустрии принято проверять модели на адекватность владения русскоязычной письменностью? Я имею ввиду не сообразительность модели на задания (вход) на русском языке с ответами в духе да/нет или цитатами из входного контекста, как делается в RussianSuperGLUE, а как в данной теме, что в целом модель хорошо на русском языке пишет.
|
Вопрос хороший.
Есть RuCoLA, которая именно про грамматичность, но она к сожалению больше про классификацию, а не про генерацию. С моей точки зрения вот какой датасет нужен: дан префикс и два варианта продолжения, из которых один корректный, а один - некорректный. И модели нужно выбрать. Что-то типа вот этого или этого. Можно даже взять отрицательные примеры из RuCoLA, и сделать из них пары. Важно, чтобы примеры использовали только левый контекст. |
А, и 70B вышла: https://huggingface.co/IlyaGusev/saiga2_70b_lora saiga2_70b vs gpt-3.5-turbo: 91-10-75 |
Примеры вывода модели:
Вы можете использовать их в любой ситуации, где **вас** требуется фамилия.
вас - вам
Моё любимое животное - это **кота**.
кота - кот
Почему бы и **ты** не рассказать мне о том, что тебе нравится делать в свободное время?
ты - тебе
И так далее...
Проверял
7b/13b
|v1/v2
используяggml
модели со стандартными настройками.Пытался изменить настройки, но положительных результатов не дало 😄
The text was updated successfully, but these errors were encountered: