Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Structure des fichiers - Archive ZIP #122

Open
TuThoThai opened this issue Oct 31, 2024 · 7 comments
Open

Structure des fichiers - Archive ZIP #122

TuThoThai opened this issue Oct 31, 2024 · 7 comments
Assignees
Labels
documentation Improvements or additions to documentation résolu résolu, en attente de clôture et/ou PR Structure fichiers Pour toute discussion sur la structuration des jeux de données validé en GT7 validé en plénière du GT7
Milestone

Comments

@TuThoThai
Copy link
Collaborator

Questions à résoudre :

  • Le nom de l’archive
  • La présence ou pas de sous archives
  • Le nom des fichiers
  • Et un focus sur le nom des fichiers lignes en cas d’export « bulk »
@TuThoThai TuThoThai added the NeTEx Pour toute discussion sur le profil France dans son intégralité label Oct 31, 2024
@TuThoThai TuThoThai added Structure fichiers Pour toute discussion sur la structuration des jeux de données and removed NeTEx Pour toute discussion sur le profil France dans son intégralité labels Oct 31, 2024
@albanpeignier
Copy link
Collaborator

Le nom de l’archive

Imposer un nom de l'archive globale est une très mauvaise idée.

C'est seulement nécessaire quand on imagine gérer un répertoire avec des fichiers.

Cette approche n'est plus très en vogue dans les architectures modernes. La plupart des usages passent par des APIs pour qui le nom du fichier n'a aucune importance.

Si quelqu'un en a besoin… il trouvera surement les ressources pour le spécifier selon son usage.

@thbar
Copy link
Contributor

thbar commented Oct 31, 2024

J'éviterais d'autoriser des zips de zips. Ca complique l'ingestion des données (il est relativement aisé de "streamer" c'est à dire lire sans décompresser, une archive, mais plus compliqué de gérer le cas où on doit faire cela recursivement).

À l'inverse je serais assez tenté de ne pas autoriser/ recommander les fichiers NeTEx non compressés (vu qu'ils sont quand même souvent volumineux, et que la compression est très efficace sur ce format).

Je n'imposerais pas non plus de nom précis sur les fichiers eux mêmes, car ça va être parfois difficile à implémenter dans certains systèmes de génération.

@prhod
Copy link
Collaborator

prhod commented Oct 31, 2024

+1 pour éviter les ZIP de ZIPs
je propose de demander à ce que ça soit dans un ZIP, même s'il n'est pas compressé (même si ce serait mieux). ça permet d'harmoniser les méthodes de lectures

@prhod
Copy link
Collaborator

prhod commented Oct 31, 2024

Précision évoquée en atelier GT7 :

  • Pas de zip dans les zips, pas de dossiers dans le fichier zip
  • un sujet sur la sécurité est abordé (fichier BAT renommé, binaire encodé en base64 dans le fichier XML, ZIPBombing, etc.). Le consensus semble être qu'il ne s'agit pas du travail du GT de lister toutes les contraintes de sécurité associées
  • il est interdit d'inclure des fichiers binaires ou des executables dans l'archive, les fichiers autres que XML sont ignorés à la lecture.
  • Il est évoqué la possibilité de mettre un sous-dossier extra pour contenir les fichiers qui ne sont pas du netex. Mais ce sujet ne fait pas consensus étant donné que ça crée une exception à la règle des sous-dossiers

@TuThoThai
Copy link
Collaborator Author

CR des discussions et décisions actés le 31 octobre 2024 :

Discussions

Nom de l’archive

  • sujet non évoqué directement mais “héritant” des recommandations formulées.
  • position évoquée par un participant mais non statué : ne pas imposer le nom

Nom des fichiers

  • Les noms de fichiers doivent être uniques sans sémantique obligatoire au delà de “ligne_”
  • Le producteur est libre de compléter et de générer un nom par regroupement pour assurer l’unicité
  • Les autres recommandations sont :
    -- pas de majuscule
    -- le séparateur est “_”
    -- pas d’accent
    -- pas d'espace

Sous archives

  • Pas de sous-archive autorisée

Relevé de décision

Suite aux échanges le groupe formule les propositions suivante

  • les fichiers binaires, exécutables et sous archives sont interdites
  • les autres fichiers type texte, json peuvent figurer dans l’archive mais seront ignorés à l’import
  • des mesures de sécurités “propres à chaque consommateur” pourront conduire à des exigences complémentaires : il n’est pas du ressort du groupe de spécifier les contraintes afférentes.
    Ces règles pourront évoluer en fonction des contraintes et des situations rencontrées.

@TuThoThai
Copy link
Collaborator Author

CR des discussions et décisions actés le 31 octobre 2024 :

Discussions

Nom de l’archive

* sujet non évoqué directement mais “héritant” des recommandations formulées.

* position évoquée par un participant mais non statué : ne pas imposer le nom

Nom des fichiers

* Les noms de fichiers doivent être uniques sans sémantique obligatoire au delà de “ligne_”

* Le producteur est libre de compléter et de générer un nom par regroupement pour assurer l’unicité

* Les autres recommandations sont :
  -- pas de majuscule
  -- le séparateur est “_”
  -- pas d’accent
  -- pas d'espace

Sous archives

* Pas de sous-archive autorisée

Relevé de décision

Suite aux échanges le groupe formule les propositions suivante

* les fichiers binaires, exécutables et sous archives sont interdites

* les autres fichiers type texte, json peuvent figurer dans l’archive mais seront ignorés à l’import

* des mesures de sécurités “propres à chaque consommateur” pourront conduire à des exigences complémentaires : il n’est pas du ressort du groupe de spécifier les contraintes afférentes.
  Ces règles pourront évoluer en fonction des contraintes et des situations rencontrées.

Lors de la réunion du 14 novembre 2024 : pas d'objection ➡️ à faire confirmer en plénière du GT7 du 21 novembre 2024

@TuThoThai TuThoThai self-assigned this Nov 14, 2024
@TuThoThai TuThoThai added en attente validation GT7 validé en sous-groupe, à reporter en plénière GT7 résolu résolu, en attente de clôture et/ou PR labels Nov 14, 2024
@TuThoThai TuThoThai added validé en GT7 validé en plénière du GT7 documentation Improvements or additions to documentation and removed en attente validation GT7 validé en sous-groupe, à reporter en plénière GT7 labels Nov 22, 2024
@TuThoThai
Copy link
Collaborator Author

validé en plénière en date du 21 novembre 2024
documentation à préparer

@TuThoThai TuThoThai added this to the v2.4 milestone Nov 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
documentation Improvements or additions to documentation résolu résolu, en attente de clôture et/ou PR Structure fichiers Pour toute discussion sur la structuration des jeux de données validé en GT7 validé en plénière du GT7
Projects
None yet
Development

No branches or pull requests

4 participants