scraping-tools

Quelques outils que j'utilise pour scraper, liste actualisée au fil du temps.

Scripts Python :

twitter.py : permet de vérifier si les comptes Twitter d'une liste sont certifiés + aspire le nombre d'abonnés
legifrance.py : permet de vérifier si un texte sur Légifrance (décrets, arrêtés... dont les urls sont à indiquer dans une liste), comprend des mots définis.

Sitemaps pour l'extension Web Scraper :

gouvernement.json : aspire la liste des membres des cabinets ministériels de tout le gouvernement, à partir du site du gouvernement, avec nom, fonction, date de nomination au Journal officiel, et ministère de rattachement.
agenda_presidentiel.json : aspire l'agenda présidentielle sur le site de l'Elysée, semaine par semaine. Une url par semaine. Liste des urls bricolées dans ce tableur
ehpad.json : aspire l'annuaire des ehpad (Nom, adresse, prix d'une chambre), disponible sur le site pour-les-personnes-agees.gouv.fr. Une url par département. Nombre de pages à scraper défini pour chaque département, après avoir scrapé le nombre de résultat pour chaque département (avec un autre script python).
twitterscrap.json : pour aspirer les tweets d'une recherche avancée twitter. Elaboré par ScrapeHero. Suffit de Edit metadata et changer l'url de départ.

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
granddebat		granddebat
README.md		README.md
agenda_presidentiel.json		agenda_presidentiel.json
amendementsretraite.py		amendementsretraite.py
assemblee.py		assemblee.py
ehpad.json		ehpad.json
formules.md		formules.md
gdcount.py		gdcount.py
gouvernement.json		gouvernement.json
granddebatcount.py		granddebatcount.py
instagram_followers.py		instagram_followers.py
legifrance.py		legifrance.py
twitter.py		twitter.py
twitterscrap.json		twitterscrap.json
whosars.py		whosars.py

Provide feedback