Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Le nom de domaine des academies est erroné #41

Open
odelcroi opened this issue Jun 21, 2023 · 0 comments
Open

Le nom de domaine des academies est erroné #41

odelcroi opened this issue Jun 21, 2023 · 0 comments
Labels
bug Something isn't working P2 Priority 2 stats

Comments

@odelcroi
Copy link
Member

odelcroi commented Jun 21, 2023

Dans les stats on a un domain "versailles.fr" alors que ca devrait être "ac-versailles.fr"

Cela est du à une regexp qui n'est pas assez greedy : regexp_replace(user_id, '^.+-([^-:]+):.*$', '\1') as domain

peut-on trouver une regexp plus appropriée ?

Exemple de domaines : https://github.com/tchapgouv/tchap-domaines/blob/main/domains.csv

france-education-international.fr
ch-albert.fr
plouezec.bzh

La regexp est appliqué sur le user_id qui est généré ici et testé ici

[email protected] -> foo-bar.baz

[email protected] -> aaa-lll.gggg-beta.gouv.fr
[email protected] -> ttt.agent-iiii-matrix.org3

-> on ne peut pas différencier a priori le nom de domaine d'un nom composé

Idée: greedyness sur le '-'

si on est un peu plus greedy sur le nom de domaine, on pourrait avoir moins de faux positifs

exemple : -([\w.-]+):
Cette version capturera toute suite de caractères alphanumériques, points, ou tirets située entre un tiret et le premier deux-points qui suit.

Ca fonctionnera si il n'y a pas de '-' dans le nom prénom du user

OK : @aaa.gggg-beta.gouv.fr:dev01.tchap.incubateur.net -> beta.gouv.fr
OK : @aaa.gggg-ch-beta.gouv.fr:dev01.tchap.incubateur.net -> ch-beta.gouv.fr
KO : @aaa-lll.gggg-ch-beta.gouv.fr:dev01.tchap.incubateur.net -> lll.gggg-ch-beta.gouv.fr
KO : @aaa-lll.gggg-ch-beta.gouv.fr:dev01.tchap.incubateur.net -> lll.gggg-beta.gouv.fr

idée : utiliser la liste domains.csv pour extraire les noms de domaines

la précision serait très bonne

  • la machine de stat devrait checkout le fichier
  • l'utiliser comme source de regexp pour extraire le domain du userId

attention au cout à l'execution, ca peut se mettre en cache (user_id, domain)

idée : reconstruire les noms de domaine avec la lise domains.csv

à étudier

@github-actions github-actions bot added the stats label Jun 21, 2023
@odelcroi odelcroi added the bug Something isn't working label Jun 21, 2023
@odelcroi odelcroi changed the title Le domain n'est pas fiable Le nom de domaine des academies est erroné Mar 29, 2024
@odelcroi odelcroi added P1 Priority 1 P2 Priority 2 and removed P1 Priority 1 labels Mar 29, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working P2 Priority 2 stats
Projects
None yet
Development

No branches or pull requests

1 participant