Registre d'arrêts : première ébauche #4393

ptitfred · 2024-12-17T17:21:08Z

Voir l'epic #4354.

Formats supportés :

GTFS
NeTEx

Résultat : fichier csv sans déduplication (les ids sont ceux issus des ressources) ni rapprochement géographique.

Manquent des tests unitaires.

See #4354.

Supporte que les GTFS.

Extract code shared with the `Transport.Jobs.GtfsToDB` job.

Lâchement inspiré de https://hackage.haskell.org/package/base-4.21.0.0/docs/Data-Maybe.html#v:catMaybes et https://hackage.haskell.org/package/base-4.21.0.0/docs/Data-Maybe.html#v:mapMaybe

thbar

J'ai fait une première passe rapide sur la PR (en mode draft mais comme vu avec @ptitfred ça n'a pas bougé depuis quelques temps).

Notes de relecture

(ça pourra servir au reste de @etalab/transport-tech qui lira sûrement cette PR à un moment).

Voici les logs suite à un démarrage en local https://gist.github.com/thbar/85b123e8a2c819a93d9a8c53fbb141a9
On itèrera un prochain tour sur les différents types d'erreurs (je vois qu'il y a des soucis d'encodage latin1 dans certains fichiers etc), comme écrit c'est un premier tour.
Voilà le fichier généré en local, pour relecture registre-arrets.csv.zip
Et un court extrait de l'output

main_id,display_name,data_source_id,data_source_format,parent_id,latitude,longitude,projection,stop_type
main:FR:52121:StopPlace:genARCOM@CHTDEG:CHT,De Gaulle,PAN:resource:80411,netex,,48.073291,5.1465855,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTOUDI:CHT,Oudinot,PAN:resource:80411,netex,,48.0784048,5.1455719,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTQUEL:CHT,Quellemele,PAN:resource:80411,netex,,48.07965605,5.14367025,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTBROT:CHT,Brottes,PAN:resource:80411,netex,,48.0821128,5.1281127,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTGROU:CHT,Groupama,PAN:resource:80411,netex,,48.0855051,5.13067385,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTTHBIS:CHT,THOMAS,PAN:resource:80411,netex,,48.0818889,5.135882,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTPAQU:CHT,Paquerettes,PAN:resource:80411,netex,,48.08639315,5.13853285,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTFARA:CHT,Faraday,PAN:resource:80411,netex,,48.08933075,5.13727315,utm_wgs84,stop
main:FR:52121:StopPlace:genARCOM@CHTROCH:CHT,Rochotte,PAN:resource:80411,netex,,48.0917009,5.1381297,utm_wgs84,stop

Points de review

Je vois que ça a fini en erreur qui stoppe le processing, je me demande si on peut l'intercepter.

[debug] extract_from_archive Elixir.Transport.Registry.GTFS PAN:resource:82277 /var/folders/tl/1p_8qmn13cbgh_539g1yxyyc0000gn/T/db8c162d-7fa4-4cc8-bffb-d791b569bf61.dat
[debug] Valid Zip archive
** (NimbleCSV.ParseError) unexpected escape character " in "\"MAISON-PONTHIEU - 40\",,50.204352,2.039905,,,,,,0\r\n"
    (nimble_csv 1.2.0) lib/nimble_csv.ex:583: NimbleCSV.RFC4180.escape/6
    (nimble_csv 1.2.0) lib/nimble_csv.ex:453: anonymous fn/4 in NimbleCSV.RFC4180.parse_stream/2
    (elixir 1.16.2) lib/stream.ex:990: Stream.do_transform_user/6
    (elixir 1.16.2) lib/stream.ex:943: Stream.do_transform/5
    (elixir 1.16.2) lib/enum.ex:4396: Enum.reverse/1
    (elixir 1.16.2) lib/enum.ex:3728: Enum.to_list/1
    (transport 0.0.1) lib/registry/gtfs.ex:30: Transport.Registry.GTFS.extract_from_archive/2
    (elixir 1.16.2) lib/stream.ex:613: anonymous fn/4 in Stream.map/2
    (elixir 1.16.2) lib/enum.ex:4839: Enumerable.List.reduce/3
    (elixir 1.16.2) lib/stream.ex:1027: Stream.do_transform_inner_list/7
    (elixir 1.16.2) lib/stream.ex:1828: Enumerable.Stream.do_each/4
    (elixir 1.16.2) lib/stream.ex:943: Stream.do_transform/5
    (elixir 1.16.2) lib/stream.ex:1828: Enumerable.Stream.do_each/4
    (elixir 1.16.2) lib/stream.ex:585: Stream.do_into/4
    (elixir 1.16.2) lib/stream.ex:690: Stream.run/1
    scripts/registre-arrets.exs:1: (file)

J'ai déployé sur prochainement pour aller tester
Je trouverais ça plus pratique d'avoir en identifiant de la ressource, le UUID datagouv, que notre identifiant "entier" à nous @ptitfred - ça m'a régulièrement évité de passer par un script / indirection pour retrouver le UUID derrière

Beau boulot otherwise, on en reparle cet après-midi !

thbar · 2025-01-13T07:57:28Z

apps/transport/lib/gtfs/utils.ex

+
+    case value do
+      nil -> default_value
+      "" -> default_value


Est-ce qu'il y a un trim en amont ? J'imagine qu'on pourrait dans certains cas tomber sur des valeurs comme " ").

(et je vois après-coup que c'est un refacto d'un code existant https://github.com/etalab/transport-site/pull/4393/files#diff-6ddccc89023492259f2e7204a077024fb50745d892994fdd85f2293a639f8887).

thbar · 2025-01-13T07:59:28Z

apps/transport/lib/gtfs/utils.ex

+  Transform the stream outputed by Unzip to a stream of maps, each map
+  corresponding to a row from the CSV.
+  """
+  def to_stream_of_maps(file_stream) do


Je me suis demandé si file_stream "is a" %File.Stream{}.

Avec l'arrivée de Elixir 1.18+ et du typage, j'ai l'impression que mettre les types de structs en paramètre va être une bonne idée.

C'est un enumerable de iodata (pas sûr du type en elixir).

thbar · 2025-01-13T08:05:06Z

apps/transport/lib/gtfs/utils.ex

+    # transform the stream to a stream of maps %{column_name1: value1, ...}
+    |> Stream.transform([], fn r, acc ->
+      if acc == [] do
+        {%{}, r |> Enum.map(fn h -> h |> String.replace_prefix("\uFEFF", "") end)}


Je ne sais pas si tu as vu qu'on peut trimmer le BOM directement à l'ouverture du stream:

https://hexdocs.pm/elixir/1.18.1/File.html#stream!/3-byte-order-marks-and-read-offset

File.stream!("./test/test.txt", [:trim_bom, encoding: :utf8])

Mais peut-être que tu as déjà vu et que ce n'est pas pratique etc...

Non ; j'ai repris naïvement du code existant.

thbar · 2025-01-13T08:28:48Z

apps/transport/lib/registry/result.ex

+  def error(message), do: {:error, message}
+
+  @spec cat_results(Stream.t(t(term()))) :: Stream.t(term())
+  def cat_results(enumerable), do: Stream.flat_map(enumerable, &keep_ok/1)


Le nommage m'a un peu pris de court : en voyant cat je crois que j'avais associé ça à une opération sans side-effect (comme cat dans le shell), mais en pratique ça reformatte la donnée.

Je plaide coupable d'avoir repris la nomenclature d'un autre langage :

Data.Maybe.catMaybes :: [Maybe a] -> [a]

Data.Maybe.mapMaybe :: (a -> Maybe b) -> [a] -> [b]

J'avoue ne pas savoir pourquoi ce préfixe "cat" a été utilisé là-bas. Je suis ouvert aux suggestions.

thbar · 2025-01-13T08:29:47Z

apps/transport/lib/registry/engine.ex

+  require Logger
+
+  @spec execute(output_file :: Path.t(), list()) :: :ok
+  def execute(output_file, opts \\ []) do


Vu que c'est l'entry point du script, quand ça sera fini fini j'ajouterais bien une doc sur la méthode.

…mier-modele

ptitfred · 2025-01-15T15:42:07Z

Je vois que ça a fini en erreur qui stoppe le processing, je me demande si on peut l'intercepter.

J'attrape l'erreur. C'est pas forcément la meilleure solution mais ça évite de saborder le reste de l'export.

ptitfred · 2025-01-15T16:27:24Z

Je trouverais ça plus pratique d'avoir en identifiant de la ressource, le UUID datagouv, que notre identifiant "entier" à nous @ptitfred - ça m'a régulièrement évité de passer par un script / indirection pour retrouver le UUID derrière

J'ai fait. A noter qu'avec le resource_id on a la même traçabilité (voire même meilleure avec le resource_history_id). Peut-être est-ce moins pratique pour un tiers ?

…mier-modele

thbar · 2025-01-16T12:26:58Z

J'ai fait. A noter qu'avec le resource_id on a la même traçabilité (voire même meilleure avec le resource_history_id). Peut-être est-ce moins pratique pour un tiers ?

Merci ! Oui c'est moins pratique, avec l'identifiant data gouv on peut plus facilement récupérer la ressource elle-même via l'API data gouv. Un deuxième argument + secondaire, c'est l'homogénéité avec d'autres consolidations, où dans certains cas on n'a même pas de resource_id PAN du tout (ex: IRVE).

thbar · 2025-01-16T12:28:57Z

@ptitfred merci pour les updates !

Comme vu en DM, ça lève une autre erreur à présent, liée je pense à une limite en file descriptor sur Mac (mais ça serait très probablement idem ailleurs avec la même limite). C'est intéressant de l'avoir vu en local, car on a un "long running process" où ça leakerait en production aussi.

[debug] Valid Zip archive
[debug] extract_from_archive Elixir.Transport.Registry.GTFS datagouv:resource:61277099-cde9-457c-919d-a1b7b20fe992 /var/folders/hz/7zpbnj551z5169215hq24gy40000gn/T/f4bf0ed9-70a0-480e-ac55-ad420a22e25f.dat
[debug] Valid Zip archive
[debug] extract_from_archive Elixir.Transport.Registry.GTFS datagouv:resource:f6135ec3-0969-4ba1-bf35-69dfd75799cf /var/folders/hz/7zpbnj551z5169215hq24gy40000gn/T/93290fec-95aa-488b-a2aa-b92ae8e3a211.dat
** (MatchError) no match of right hand side value: {:error, :emfile}
    (unzip 0.12.0) lib/unzip/local_file.ex:11: Unzip.LocalFile.open/1
    (transport 0.0.1) lib/registry/gtfs.ex:69: Transport.Registry.GTFS.file_stream/1
    (transport 0.0.1) lib/registry/gtfs.ex:19: Transport.Registry.GTFS.extract_from_archive/2
    (elixir 1.16.2) lib/stream.ex:613: anonymous fn/4 in Stream.map/2
    (elixir 1.16.2) lib/enum.ex:4839: Enumerable.List.reduce/3
    (elixir 1.16.2) lib/stream.ex:1027: Stream.do_transform_inner_list/7
    (elixir 1.16.2) lib/stream.ex:1828: Enumerable.Stream.do_each/4
    (elixir 1.16.2) lib/stream.ex:943: Stream.do_transform/5
    (elixir 1.16.2) lib/stream.ex:1828: Enumerable.Stream.do_each/4
    (elixir 1.16.2) lib/stream.ex:585: Stream.do_into/4
    (elixir 1.16.2) lib/stream.ex:690: Stream.run/1
    scripts/registre-arrets.exs:1: (file)
    (elixir 1.16.2) lib/code.ex:1489: Code.require_file/2
    (mix 1.16.2) lib/mix/tasks/run.ex:146: Mix.Tasks.Run.run/5
[os_mon] memory supervisor port (memsup): Erlang has closed

Je pense directement à quelque chose d'analogue à:

Leak (a priori) de handles de fichiers dans ZipMetaDataExtractor #1980

avec un leak de fichiers ouverts pour la lecture des GTFS, vu les logs.

thbar

Sur la machine où ça plantait, tes derniers changements @ptitfred font que ça va au bout ! Plus d'erreur "emfile" en bout de script.

En relisant le code je pense qu'il reste des cas où ça va leaker et je propose un refacto pour supprimer les leaks restants (approche utilisée sur le parseur NeTEx).

thbar · 2025-01-20T08:44:39Z

apps/transport/lib/registry/gtfs.ex

+  Extract stops from GTFS ressource.
+  """
+  def extract_from_archive(data_source_id, archive) do
+    case file_stream(archive) do


Le nouveau code va traiter la grande majorité des leaks, mais il va en rester avec cette nouvelle version à mon avis. Le cas {:error, ...} au minimum va leaker, et notamment dans les cas où l'archive peut être ouverte avec succès, mais sa lecture zip technique ici échoue pour X raison:

https://github.com/etalab/transport-site/pull/4393/files#diff-30981bbcdbac682bd45a739edc4dc5c9488adb061bf6b9710a5b36ea5bc1a906R70-R85

Le point pernicieux c'est que ça sera dur à constater (beaucoup moins visible) sur la production, mais ça finira par se produire et redémarrer toute l'application (qui aura épuisé les file descriptors disponibles), de façon régulière.

Je te propose @ptitfred d'utiliser l'approche (voire, le code même, il est pas spécifique à NeTEx en pratique) ici, qui fait un wrapping systématique avec after dans 100% des cas:

transport-site/apps/transport/lib/netex/netex_archive_parser.ex

Lines 52 to 61 in 4897113

def with_zip_file_handle(zip_file_name, cb) do

zip_file = Unzip.LocalFile.open(zip_file_name)

try do

{:ok, unzip} = Unzip.new(zip_file)

cb.(unzip)

after

Unzip.LocalFile.close(zip_file)

end

end

Pas sûr que mon explication soit super claire, hésite pas si besoin !

Je voulais faire ça au début mais on doit attendre que le fichier soit utilisé dans le prochain itérateur.

J'ai poussé le close en cas d'erreur.

On en a discuté en point dév, sounds good !

…mier-modele

thbar

On est bon !

Note pour @etalab/transport-tech : cette PR crée un fichier mais le code n'est pas invoqué en production. On le déploie ce qui permettra d'aller tester sur la production en console, et on va aussi travailler sur un job qui va "pousser" ce fichier à un endroit déterminé sur S3 (et qui poussera d'ailleurs aussi les artefacts produits par #4397.

ptitfred force-pushed the registre-arrets/premier-modele branch 5 times, most recently from 2acbef3 to 274dd93 Compare December 19, 2024 21:58

ptitfred added 13 commits December 20, 2024 15:15

Registre d'arrêts : premiers modèles

ea32f57

See #4354.

Extracteur GTFS

7a43312

Transport.HTTPClient.get

0f17fd1

Registre d'arrêt : premier script d'export

d897569

Supporte que les GTFS.

Test de certains utilitaires

5c21318

More tests and refactoring

44b6676

Extract code shared with the `Transport.Jobs.GtfsToDB` job.

Meilleur nommage

79b6228

Lâchement inspiré de https://hackage.haskell.org/package/base-4.21.0.0/docs/Data-Maybe.html#v:catMaybes et https://hackage.haskell.org/package/base-4.21.0.0/docs/Data-Maybe.html#v:mapMaybe

Code dans le bon module

cb1a7d1

NeTEx extractors: explicit raising

c3b26d9

Increased timeout

d74db74

Registre d'arrêts : extraire les arrêts des NeTEx

2d53a9a

Identifiant de la source (traçabilité)

87bcf13

Linting

604202c

ptitfred force-pushed the registre-arrets/premier-modele branch from 274dd93 to 604202c Compare December 20, 2024 14:38

thbar reviewed Jan 13, 2025

View reviewed changes

Merge remote-tracking branch 'origin/master' into registre-arrets/pre…

eea082c

…mier-modele

ptitfred marked this pull request as ready for review January 14, 2025 11:02

ptitfred requested a review from a team as a code owner January 14, 2025 11:02

ptitfred added 3 commits January 14, 2025 12:09

Some typespecs and docs

aea3e94

Merge remote-tracking branch 'origin/master' into registre-arrets/pre…

6d2d36c

…mier-modele

Resist to unescaped characters in gtfs

e070530

Resource id de data.gouv plutôt que PAN

287f679

ptitfred requested a review from thbar January 15, 2025 16:29

Merge remote-tracking branch 'origin/master' into registre-arrets/pre…

e901464

…mier-modele

Close early open files

52dbc1c

thbar reviewed Jan 20, 2025

View reviewed changes

Merge remote-tracking branch 'origin/master' into registre-arrets/pre…

d5cd80a

…mier-modele

ptitfred force-pushed the registre-arrets/premier-modele branch from e187dbf to d5cd80a Compare January 20, 2025 12:11

ptitfred added 2 commits January 20, 2025 14:26

Close files on error

89dad4a

Merge remote-tracking branch 'origin/master' into registre-arrets/pre…

a6e4446

…mier-modele

thbar approved these changes Jan 20, 2025

View reviewed changes

ptitfred added this pull request to the merge queue Jan 20, 2025

Merged via the queue into master with commit 7783db7 Jan 20, 2025
4 checks passed

ptitfred deleted the registre-arrets/premier-modele branch January 20, 2025 14:35

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Registre d'arrêts : première ébauche #4393

Registre d'arrêts : première ébauche #4393

ptitfred commented Dec 17, 2024 •

edited

Loading

thbar left a comment

thbar Jan 13, 2025

thbar Jan 13, 2025

thbar Jan 13, 2025

ptitfred Jan 13, 2025

thbar Jan 13, 2025

ptitfred Jan 13, 2025

thbar Jan 13, 2025

ptitfred Jan 13, 2025 •

edited

Loading

thbar Jan 13, 2025

ptitfred commented Jan 15, 2025

ptitfred commented Jan 15, 2025

thbar commented Jan 16, 2025

thbar commented Jan 16, 2025 •

edited

Loading

thbar left a comment •

edited

Loading

thbar Jan 20, 2025

ptitfred Jan 20, 2025 •

edited

Loading

ptitfred Jan 20, 2025

thbar Jan 20, 2025

thbar left a comment

	def with_zip_file_handle(zip_file_name, cb) do
	zip_file = Unzip.LocalFile.open(zip_file_name)

	try do
	{:ok, unzip} = Unzip.new(zip_file)
	cb.(unzip)
	after
	Unzip.LocalFile.close(zip_file)
	end
	end

Registre d'arrêts : première ébauche #4393

Registre d'arrêts : première ébauche #4393

Conversation

ptitfred commented Dec 17, 2024 • edited Loading

thbar left a comment

Choose a reason for hiding this comment

Notes de relecture

Points de review

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ptitfred Jan 13, 2025 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ptitfred commented Jan 15, 2025

ptitfred commented Jan 15, 2025

thbar commented Jan 16, 2025

thbar commented Jan 16, 2025 • edited Loading

thbar left a comment • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ptitfred Jan 20, 2025 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

thbar left a comment

Choose a reason for hiding this comment

ptitfred commented Dec 17, 2024 •

edited

Loading

ptitfred Jan 13, 2025 •

edited

Loading

thbar commented Jan 16, 2025 •

edited

Loading

thbar left a comment •

edited

Loading

ptitfred Jan 20, 2025 •

edited

Loading