Skip to content

Latest commit

 

History

History
137 lines (101 loc) · 4.6 KB

todo

File metadata and controls

137 lines (101 loc) · 4.6 KB

errors in eparents [1/7]

  • [X] Adv_Co + Atr_Co_E annotators/tem/done/ln94200_127.a##63.2
  • [ ] ? is_member: annotators/les/done/ln94211_70.a##10.20
  • [ ] not common: annotators/kac/done/ln94209_100.a##15.3
  • [ ] not common: annotators/kac/done/lnd91303_092.a##16.3
  • [ ] should be is_member? annotators/kac/done/pdtsc_003_2.05.a##24.14
  • [ ] What does Coord_E mean? _E should mean “this afun is related to a missing node”, but it’s not the case here. annotators/kac/done/ln95046_050.a##1.1
  • [ ] annotators/kac/done/mf930713_002.a #23 versus #85

A-layer PDT/amw [5/5]

  • [X] Exd na AuxS s tagem NN–1 (substantivum v nominativu) přepsat na Denom
  • [X] AuxK posunout o patro níž na (poslední) nejvyšší uzel
  • [X] převěšet uvozovky tak, aby se nezlobila kontrola Parent too far (mezi uvozovku a jejího rodiče se v povrchovém pořadí nemůže dostat nic kromě interpunkce (počáteční uvozovky visí na slově bezprostředně následujícím, koncové na slově bezprostředně předcházejícím)).
  • [X] AtrAtr, AtrAdv, AdvAtr, AtrObj, ObjAtr atp. přepsat na první hodnotu?
  • [X] AtvV přepsat na Atv

A-layer Annotation [1/1]

  • [X] Report error when file is found in anot dir but not in list.txt (maybe only on update x?)

LREC-22

no supportTRRulesTR+Rules
lrec1lrec2lrec3lrec4
wsj1002wsj2250wsj0282wsj1455wsj0989wsj1446wsj1568wsj1986
12611241125212581257125412621239
parsedtohmamtohmamtohmamtohmam
basjahbasjahbasjahbasjah
manualmamtohmamtohmamtohmamtoh
jahbasjahbasjahbasjahbas

A-layer [1/1]

  • [X] duplicate some lec files to mam

Rename vallex

find . -name .git -prune -o -type f -exec grep ‘vallex3.xml’ {} + | grep -v id=

Broken links t->a

for tb in PCEDT PDTSC ; do grep ‘id=’ WorkData/$tb/data/*.a | cut -f2 -d" | grep … | \ grep -vwFf- <(grep ‘a#’ WorkData/$tb/data/*.t) done

PCEDT + Faust [2/2]

  • [X] Fix forms (new dictionary?)
  • [X] Repeat all steps for Faust

Duplicates [4/4]

Randomly select one file in *.p/ and move it to the main dir.

  • [X] PDTSC
  • [X] PDT
  • [X] PCEDT
  • [X] Faust

Anotovatko PDT

  • [X] obarvit tabulku: orig, recommended, selected
  • [X] nemazat recommended
  • [X] na konci makro, že nic nezbylo
  • [X] anotátorská poznámka
  • [X] oprava formy: přegenerovat větu
  • [X] vlastní lemma + tag
  • [X] zvětšit kontext

Segmentace

tamw [3/8]

  • [X] tamw/train-5/lnd94103_080.m##{11,12} “a.s. Vítkovice”
  • [X] tamw/train-2/ln94211_1.m##{14,15} “Nixdorf-Siemens” (bylo rozděleno ručně na 4A a 4B)
  • [-] tamw/train-5/ln94206_6.m##{2,3} (nadpis, podnadpis)
  • [-] tamw/train-5/ln94206_6.m##{11,12} (nadpis, podnadpis)
  • [-] tamw/train-5/ln94206_6.m##{17,18} (nadpis, podnadpis)
  • [-] tamw/train-5/ln94207_96.m##{2,3} (nadpis, podnadpis)
  • [-] tamw/etest/mf920925_095.m##{51,52} (rozhlasový pořad “Vadí?…Nevadí”)
  • [X] tamw/etest/mf930713_145.m##{5,6} (segmentace mezi křestním j. a příjmením, žádná tečka, pomlčka!)

amw [3/3]

  • [X] amw/etest/vesm9303_046.a##{60,61}
  • [X] amw/train-1/vesm9301_009.m##{9,10}
  • [X] amw/train-3/vesm9301_001.a##{1,2}

mw

Rozdělit věty [100%]

  • [X] mw/train-3/lnd92257_001.m##4
  • [X] mw/train-3/lnd92257_001.m##5
  • [X] mw/train-4/ln94201_87.m##22
  • [X] mw/train-5/lnd92251_028.m##5
  • [X] mw/train-5/lnd92259_097.m##11
  • [X] mw/train-5/lnd92259_097.m##25
  • [X] mw/train-5/ln94201_102.m##3
  • [X] mw/train-5/ln94201_102.m##142
  • [X] mw/train-6/lnd92259_078.m##12
  • [X] mw/train-7/mf930701_060.m##25
  • [X] mw/etest/lnd92253_070.m##32
  • [X] mw/etest/ln94201_38.m##2

Smazat věty

mw/train-1/lnd92258_078.m##107 a dále až do konce

Spojit i rozdělit

mw/train-5/lnd92255_080.m##{74,75,76}

Celý soubor špatně [100%]

  • [X] mw/train-5/lnd92254_095.m
  • [X] mw/train-5/ln94201_79.m
  • [X] mw/train-5/mf930701_088.m
  • [X] mw/etest/lnd92252_097.m
  • [X] mw/etest/lnd92257_078.m

Tokenizace [1/1]

  • [X] “sHand H” má být zřejmě “s H and H” tamw/train-4/ln95048_045##1