Quelques outils que j'utilise pour scraper, liste actualisée au fil du temps.
Scripts Python :
- twitter.py : permet de vérifier si les comptes Twitter d'une liste sont certifiés + aspire le nombre d'abonnés
- legifrance.py : permet de vérifier si un texte sur Légifrance (décrets, arrêtés... dont les urls sont à indiquer dans une liste), comprend des mots définis.
Sitemaps pour l'extension Web Scraper :
- gouvernement.json : aspire la liste des membres des cabinets ministériels de tout le gouvernement, à partir du site du gouvernement, avec nom, fonction, date de nomination au Journal officiel, et ministère de rattachement.
- agenda_presidentiel.json : aspire l'agenda présidentielle sur le site de l'Elysée, semaine par semaine. Une url par semaine. Liste des urls bricolées dans ce tableur
- ehpad.json : aspire l'annuaire des ehpad (Nom, adresse, prix d'une chambre), disponible sur le site pour-les-personnes-agees.gouv.fr. Une url par département. Nombre de pages à scraper défini pour chaque département, après avoir scrapé le nombre de résultat pour chaque département (avec un autre script python).
- twitterscrap.json : pour aspirer les tweets d'une recherche avancée twitter. Elaboré par ScrapeHero. Suffit de Edit metadata et changer l'url de départ.