Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Rekomendacije po sintaksě #65

Open
noomorph opened this issue Apr 15, 2023 · 1 comment
Open

Rekomendacije po sintaksě #65

noomorph opened this issue Apr 15, 2023 · 1 comment
Assignees
Labels
nemaje opisa Opis projekta je prěmnogo kratky, abo nemaje software Programističny / aplikacijny projekt vȯ slavu MS jezyka (a takože projekty jih prěvodov) učenje Potrěbno učiti ljudij medžuslovjanskomu!

Comments

@noomorph
Copy link
Contributor

Medžuslovjanska sintaksa ne je formalizovana i je prěmnogo svobodna.

@bt2901 proponuje iztvoriti prěporuky na osnově korpusa tekstov prirodnyh slovjanskyh jezykov:

my možemo izměriti tipičny poredok slov v paralelnyh rěčenjah na raznyh slovjanskyh jezykah, opisati razliky i imati vslěd togo někake prěporuky o najvyše razumlivom/prirodnom sintaksu MS

@noomorph noomorph added nemaje opisa Opis projekta je prěmnogo kratky, abo nemaje software Programističny / aplikacijny projekt vȯ slavu MS jezyka (a takože projekty jih prěvodov) učenje Potrěbno učiti ljudij medžuslovjanskomu! labels Apr 15, 2023
@bt2901
Copy link

bt2901 commented Apr 15, 2023

Како ја виджу туту работу?

Туты чланок даваје методу за корпусну анализу: https://www.dialog-21.ru/media/1335/124.pdf

  1. беремо рєченја на разных језыках, кторе сут прєводами једного оригинала
  2. изтварјајемо PoS-значкы за всако слово (тутчас не јест тежко издєлати туто хвала модерновым технологијам: udpipe и spacy увєрено знајут туто сразумєти, принајменје за высокоресурсне језыкы)
  3. такым взором имамо замєсто рєчениј строкы подобне на (Verb) (Pronoun) (Noun) или (Pronoun) (Verb) (Pronoun) (Noun), меджу кторыми можно изчислити дистанцију Левенштејна.

Базоју за анализу можно взети корпус рєчениј из flores200 (он имаје паралелне рєченја на 13 словјанскых језыках): https://github.com/facebookresearch/flores/tree/main/flores200 или Малого Принца (имамо свободно приступне прєклады на PL, CZ, BG, BE, UK, RU, CR и такоже на ISV).

Нєкторе можне пытанја:

  1. позиција клитиков (что јест "друга позиција" в рєченју? сут ли нєкторе слова, кторе често притегивајут к собє клитикы?)
  2. позиција копулы
  3. јест ли разлика в користанју прєдложников?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
nemaje opisa Opis projekta je prěmnogo kratky, abo nemaje software Programističny / aplikacijny projekt vȯ slavu MS jezyka (a takože projekty jih prěvodov) učenje Potrěbno učiti ljudij medžuslovjanskomu!
Projects
None yet
Development

No branches or pull requests

2 participants