- Python 3.8 ou supérieur
Créer un environnement virtuel :
python -m venv venv
Activer l'environnement virtuel :
source venv/bin/activate # Linux
venv\Scripts\activate # Windows
Installer les dépendances avec pip :
pip install -r requirements.txt
Extract the data from the RDG API.
python src/extract_rdg_corpus.py
This script will separate the data into 3 files : one for each type (files, datasets, dataverse).
python src/filter_types.py
Le notebook notebooks/analyse_rdg_metadata.ipynb
permet d'analyser les métadonnées des fichiers, jeux de données et dataverses.
Vous pouvez le lancez via VSCode (avec l'extension Jupyter) ou via Juptyer Notebook.
Les données dans ce dépôt ont été extraite à date du 2024-10-02.