-
-
Notifications
You must be signed in to change notification settings - Fork 41
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Broken transcribing for russian language #59
Comments
thanks for the issue report. |
Yes. Microsoft Windows [Version 10.0.22631.2715] |
@takezie can you perhaps give me a recording of audio that produces this problem so i can test on my end? |
@royshil Here is set of pangramms - every phrase contains full set of cyrillic characters. mp3: google.drive transcribing: А ещё хорошо бы уметь всем на зависть чётко и наглядно писать буквы и цифры. Аэрофотосъёмка ландшафта уже выявила земли богачей и процветающих крестьян. Бегом марш! У месторождения кварцующихся фей без слёз хочется электрическую пыль. Безмозглый широковещательный цифровой передатчик сужающихся экспонент. Блеф разъедает ум, чаще цыгана живёшь беспокойно, юля — грех это! В чащах юга жил бы цитрус? Да, но фальшивый экземпляр! Вопрос футбольных энциклопедий замещая чушью: эй, где съеден ёж? Всё ускоряющаяся эволюция компьютерных технологий предъявила жёсткие требования к производителям как собственно вычислительной техники, так и периферийных устройств. Вступив в бой с шипящими змеями — эфой и гадюкой, — маленький, цепкий, храбрый ёж съел их. Государев указ: душегубцев да шваль всякую высечь, да калёным железом по щекам этих физиономий съездить! Друг мой эльф! Яшке б свёз птиц южных чащ! Завершён ежегодный съезд эрудированных школьников, мечтающих глубоко проникнуть в тайны физических явлений и химических реакций. |
so this image you attached is wrong? it looks like the Cyrillic letters are showing up... are there specific letters that have problems? |
Your variant also have wrong characters, but in another way. I tried to build on my PC, got same problem, I'm getting atm: Original: Transcribed: ѐ \xD1\x90 should be \xD1\x80 it looks like its error for x90...x9A range, but then things get weirder And at your sample, уметќ broken, right spelling уметь, and it decodes in same way for both of us, but хоѐошо decoded wrong for me, and correct for you. I don't understand how this is possible. |
@royshil could you take a look at this PR, that probably solve the same problem? I'm not strong with cpp, but may be it will be useful? |
@takezie yes ive seen it. i have my own fix which i think is more complete https://github.com/occ-ai/obs-localvocal/blob/master/src/transcription-filter.cpp#L249 |
stale |
After voice input: "Это проверка русского языка для... "
I got transcribed text: "Это пѐогеѐка ѐууукого џзыка длџ..."
It looks like cyrillic "я" replaced with "џ", "ѐ" for cyrillic "р", "о" for cyrillic "н", "у" for cyrillic "с" and so on.
The text was updated successfully, but these errors were encountered: