Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

A single spurious hit reported for unlikely character confusion values by TICCL-indexer #47

Open
martinreynaert opened this issue Jun 8, 2023 · 1 comment

Comments

@martinreynaert
Copy link
Collaborator

martinreynaert commented Jun 8, 2023

My description of this case is further in Dutch.

Raar fenomeen in output TICCL-indexer:

Case: bijna 40K (39692) confusiewaarden na een bepaalde TICCL-indexer run hebben slechts 1 hit, hierbij de eerste tien:

reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat SABEDARTIFRQ.INDEXER.NO1GRAMS.index | grep -v ',' | head
1781601714#232412543950
10471751169#246356188646
10949426895#170748259103
29065336024#206073498186
1164418#136063370265
862690025#188964661931
4934415782#226797669540
18657826285#200329872385
2230055461#208167392798
23424180656#270922046093

Voor de eerste twee checken we dit tegenover *anahash. Het getal na het hash-teken staat dus voor een bepaald ngram (of de anagrammen ervan). Dat zou dan in karakters moeten verschillen met het ngram met anagramwaarde de som van die confusiewaarde en dat getal. We zien in beide gevallen dat dit geenszins het geval is. We hebben dit eerder bij 1 andere confusiewaarde gezien, gaan er nu van uit dat dit voorkomt als voor de confusiewaarde (die lijkt te staan voor een heel weinig waarschijnlijke echte confusie tussen woordparen) geen corresponderend woordpaar gevonden werd.

reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat /reddata/POLMASH/TRI/ALPH/nld.aspell.dict.clip20.ld2.charconfus | grep '1781601714'
1781601714#cë~rü
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '232412543950' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
232412543950~geen_stop_Codol
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '234194145664' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
234194145664~dat_we_herkennen
reynaert@violet:/reddata/TICCL/VINCENT/SABED$
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ cat /reddata/POLMASH/TRI/ALPH/nld.aspell.dict.clip20.ld2.charconfus | grep '10471751169'
10471751169#cö~éï
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '246356188646' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
246356188646~hoort_dit_thuis?
reynaert@violet:/reddata/TICCL/VINCENT/SABED$ grep '256827939815' /reddata/TICCL/VINCENT/SABED/SABEDARTIFRQ.ANAHASH.anahash
256827939815~ook_de_verwekker
Er zijn in totaal 305370 karakterconfusies in mijn lijst: nld.aspell.dict.clip20.ld2.charconfus. Voor 126617 ervan worden hits gerapporteerd in de anahash. Het is dus niet zo dat steeds wanneer er geen hits waren, een spurieuze hitwaarde gerapporteerd wordt, dit was slechts voor 39692 karakterconfusiewaarden het geval.

Deze spurieuze waarden kunnen ook voorkomen bij andere confusiewaarden, maar dat is niet noodzakelijk zo. Het is niet het geval bij de waarde voor ons eerste voorbeeld: 232412543950~geen_stop_Codol, maar wel voor de tweede: 246356188646~hoort_dit_thuis?. Ik weet niet of dit ergens anders voor gevolgen heeft. In elk geval zie ik niet dat de spurieus gerapporteerde hits op zich verder ergens gevolgen voor hebben. TICCL-LDcalc zal deze verder gewoon negeren, veronderstel ik.

@kosloot
Copy link
Collaborator

kosloot commented Jun 9, 2023

@martinreynaert 2 questions:

  1. Do both TICCL-indexer and TICLL-indexerNT produce this same erroneous file?
  2. Should entries like 1781601714#232412543950 not be present at all, or is the found value 232412543950 off?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants