You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Voor de eerste twee checken we dit tegenover *anahash. Het getal na het hash-teken staat dus voor een bepaald ngram (of de anagrammen ervan). Dat zou dan in karakters moeten verschillen met het ngram met anagramwaarde de som van die confusiewaarde en dat getal. We zien in beide gevallen dat dit geenszins het geval is. We hebben dit eerder bij 1 andere confusiewaarde gezien, gaan er nu van uit dat dit voorkomt als voor de confusiewaarde (die lijkt te staan voor een heel weinig waarschijnlijke echte confusie tussen woordparen) geen corresponderend woordpaar gevonden werd.
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat /reddata/POLMASH/TRI/ALPH/nld.aspell.dict.clip20.ld2.charconfus | grep '1781601714' 1781601714#cë~rü
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '232412543950' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash 232412543950~geen_stop_Codol
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '234194145664' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash 234194145664~dat_we_herkennen
reynaert@violet:/reddata/TICCL/VINCENT/SABED$
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat /reddata/POLMASH/TRI/ALPH/nld.aspell.dict.clip20.ld2.charconfus | grep '10471751169' 10471751169#cö~éï
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '246356188646' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash 246356188646~hoort_dit_thuis?
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '256827939815' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash 256827939815~ook_de_verwekker
Er zijn in totaal 305370 karakterconfusies in mijn lijst: nld.aspell.dict.clip20.ld2.charconfus. Voor 126617 ervan worden hits gerapporteerd in de anahash. Het is dus niet zo dat steeds wanneer er geen hits waren, een spurieuze hitwaarde gerapporteerd wordt, dit was slechts voor 39692 karakterconfusiewaarden het geval.
Deze spurieuze waarden kunnen ook voorkomen bij andere confusiewaarden, maar dat is niet noodzakelijk zo. Het is niet het geval bij de waarde voor ons eerste voorbeeld: 232412543950~geen_stop_Codol, maar wel voor de tweede: 246356188646~hoort_dit_thuis?. Ik weet niet of dit ergens anders voor gevolgen heeft. In elk geval zie ik niet dat de spurieus gerapporteerde hits op zich verder ergens gevolgen voor hebben. TICCL-LDcalc zal deze verder gewoon negeren, veronderstel ik.
The text was updated successfully, but these errors were encountered:
My description of this case is further in Dutch.
Raar fenomeen in output TICCL-indexer:
Case: bijna 40K (39692) confusiewaarden na een bepaalde TICCL-indexer run hebben slechts 1 hit, hierbij de eerste tien:
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat SABEDARTIFRQ.INDEXER.NO1GRAMS.index | grep -v ',' | head
1781601714#232412543950
10471751169#246356188646
10949426895#170748259103
29065336024#206073498186
1164418#136063370265
862690025#188964661931
4934415782#226797669540
18657826285#200329872385
2230055461#208167392798
23424180656#270922046093
Voor de eerste twee checken we dit tegenover *anahash. Het getal na het hash-teken staat dus voor een bepaald ngram (of de anagrammen ervan). Dat zou dan in karakters moeten verschillen met het ngram met anagramwaarde de som van die confusiewaarde en dat getal. We zien in beide gevallen dat dit geenszins het geval is. We hebben dit eerder bij 1 andere confusiewaarde gezien, gaan er nu van uit dat dit voorkomt als voor de confusiewaarde (die lijkt te staan voor een heel weinig waarschijnlijke echte confusie tussen woordparen) geen corresponderend woordpaar gevonden werd.
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat /reddata/POLMASH/TRI/ALPH/nld.aspell.dict.clip20.ld2.charconfus | grep '1781601714'
1781601714#cë~rü
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '232412543950' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
232412543950~geen_stop_Codol
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '234194145664' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
234194145664~dat_we_herkennen
reynaert@violet:/reddata/TICCL/VINCENT/SABED$
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat /reddata/POLMASH/TRI/ALPH/nld.aspell.dict.clip20.ld2.charconfus | grep '10471751169'
10471751169#cö~éï
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '246356188646' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
246356188646~hoort_dit_thuis?
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '256827939815' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
256827939815~ook_de_verwekker
Er zijn in totaal 305370 karakterconfusies in mijn lijst: nld.aspell.dict.clip20.ld2.charconfus. Voor 126617 ervan worden hits gerapporteerd in de anahash. Het is dus niet zo dat steeds wanneer er geen hits waren, een spurieuze hitwaarde gerapporteerd wordt, dit was slechts voor 39692 karakterconfusiewaarden het geval.
Deze spurieuze waarden kunnen ook voorkomen bij andere confusiewaarden, maar dat is niet noodzakelijk zo. Het is niet het geval bij de waarde voor ons eerste voorbeeld:
232412543950~geen_stop_Codol
, maar wel voor de tweede: 246356188646~hoort_dit_thuis?. Ik weet niet of dit ergens anders voor gevolgen heeft. In elk geval zie ik niet dat de spurieus gerapporteerde hits op zich verder ergens gevolgen voor hebben. TICCL-LDcalc zal deze verder gewoon negeren, veronderstel ik.The text was updated successfully, but these errors were encountered: