Skip to content
This repository has been archived by the owner on Jan 14, 2025. It is now read-only.

sources de données cf madada #53

Open
Erwan-le-Gall opened this issue Feb 9, 2024 · 1 comment
Open

sources de données cf madada #53

Erwan-le-Gall opened this issue Feb 9, 2024 · 1 comment

Comments

@JulienPalard
Copy link
Collaborator

Merci pour les liens.

Je viens d'essayer avec dada-france-authorities j'ai appris trois choses :

  • Je suis incapable d'écrire dada, mes doigts écrivent systémantiquement data.
  • 976 domains sont nouveaux du point de vue de "noms-de-domaine-organismes-secteur-public", youpi.
  • il y a qq erreurs côté dada-france-authorities

Mon test :

import csv
from pathlib import Path

with open("french-authorities.csv", encoding="cp1252") as f:
    reader = csv.reader(f)
    dada_urls = [row[4] for row in reader][1:]
    dada_domains = {url.split("/")[2] for url in dada_urls if "://" in url}

with open("/home/mdk/src/etalab/noms-de-domaine-organismes-publics/domains.csv", encoding="UTF-8") as f:
    reader = csv.reader(f)
    known_domains = set([row[0] for row in reader][1:])

print(*(dada_domains - known_domains), sep="\n")

Résultats surprenants :

il y a aussi quelques domaines qu'on ne peut pas importer (cananblog.com, wixsite.com, ...) vu qu'on est plus orientés noms de domaines que page.

Ça laisse beaucoup de choses à importer c'est cool.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants