sources de données cf madada #53

Erwan-le-Gall · 2024-02-09T11:19:50Z

https://madada.fr/body/list/all
sources de données :

JulienPalard · 2024-02-10T07:35:24Z

Merci pour les liens.

Je viens d'essayer avec dada-france-authorities j'ai appris trois choses :

Je suis incapable d'écrire dada, mes doigts écrivent systémantiquement data.
976 domains sont nouveaux du point de vue de "noms-de-domaine-organismes-secteur-public", youpi.
il y a qq erreurs côté dada-france-authorities

Mon test :

import csv
from pathlib import Path

with open("french-authorities.csv", encoding="cp1252") as f:
    reader = csv.reader(f)
    dada_urls = [row[4] for row in reader][1:]
    dada_domains = {url.split("/")[2] for url in dada_urls if "://" in url}

with open("/home/mdk/src/etalab/noms-de-domaine-organismes-publics/domains.csv", encoding="UTF-8") as f:
    reader = csv.reader(f)
    known_domains = set([row[0] for row in reader][1:])

print(*(dada_domains - known_domains), sep="\n")

Résultats surprenants :

www.chasse-nature-occitanie.frhaute-garonne
www.greta.ac-amiens.frsomme
orientation.ac-creteil.frcio-saintdenis
orientation.ac-creteil.frcio-tremblay
vg-agglo.localeo.frsaint_martin_petit
...

il y a aussi quelques domaines qu'on ne peut pas importer (cananblog.com, wixsite.com, ...) vu qu'on est plus orientés noms de domaines que page.

Ça laisse beaucoup de choses à importer c'est cool.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

sources de données cf madada #53

sources de données cf madada #53

Erwan-le-Gall commented Feb 9, 2024

JulienPalard commented Feb 10, 2024

sources de données cf madada #53

sources de données cf madada #53

Comments

Erwan-le-Gall commented Feb 9, 2024

JulienPalard commented Feb 10, 2024