Το Template Parameter Extractor είναι ένα script σε Python που επιτρέπει την εξαγωγή των παραμέτρων από τη χρήση ενός συγκεκριμένου προτύπου στην ελληνική Wikipedia. Το script αναζητά όλες τις σελίδες που χρησιμοποιούν το δεδομένο πρότυπο, συλλέγει τις τιμές των παραμέτρων για κάθε χρήση και τις αποθηκεύει σε ένα αρχείο μορφής TSV (Tab-Separated Values). Το αρχείο που παράγεται έχει μία σειρά για κάθε σελίδα και μία στήλη για κάθε παράμετρο.
- Εξαγωγή παραμέτρων προτύπων από σελίδες της ελληνικής Wikipedia.
- Δημιουργία αρχείου TSV με τις παραμέτρους ως στήλες και τα λήμματα ως σειρές.
- Καθαρισμός των τιμών των παραμέτρων από ειδικούς χαρακτήρες (newlines, tabs) για σωστή μορφοποίηση του αρχείου.
- Υποστήριξη ορισμού του ονόματος του προτύπου μέσω της command line, ή εναλλακτικά με εισαγωγή από τον χρήστη.
- Python 3.x
- Βιβλιοθήκες:
pywikibot
mwparserfromhell
argparse
csv
-
Κλωνοποιήστε ή κατεβάστε το repository με το script.
-
Εγκαταστήστε τις απαραίτητες βιβλιοθήκες με την εντολή:
bash
Copy code
pip install pywikibot mwparserfromhell
-
Ρυθμίστε το
pywikibot
για να δουλεύει με την ελληνική Wikipedia, ακολουθώντας τις οδηγίες στο επίσημο documentation του pywikibot.
Μπορείτε να τρέξετε το script από την command line με δύο τρόπους:
bash
Copy code
python tpe.py --template Κουτί_Πληροφοριών
ή
bash
Copy code
python tpe.py -t Κουτί_Πληροφοριών
bash
Copy code
python tpe.py
Στη συνέχεια, το script θα σας ζητήσει να εισάγετε το όνομα του προτύπου:
Copy code
Δώσε το όνομα του προτύπου:
Το script θα δημιουργήσει ένα αρχείο TSV με όνομα {template_name}_parameters.tsv
, όπου το {template_name}
είναι το όνομα του προτύπου που δόθηκε. Το αρχείο TSV θα περιέχει τις εξής πληροφορίες:
- Η πρώτη στήλη περιέχει το όνομα της σελίδας (τίτλος του λήμματος).
- Οι επόμενες στήλες περιέχουν τις παραμέτρους του προτύπου. Αν κάποια παράμετρος δεν υπάρχει σε συγκεκριμένο λήμμα, η αντίστοιχη στήλη θα είναι κενή.
Αν εκτελέσετε το script με το πρότυπο Κουτί_Πληροφοριών
, το αρχείο TSV θα έχει την εξής μορφή:
Page Title | παράμετρος1 | παράμετρος2 | παράμετρος3 | ...
---------------------------------------------------------------
Λήμμα1 | τιμή1 | τιμή2 | τιμή3 | ...
Λήμμα2 | τιμή1 | | τιμή3 | ...
Λήμμα3 | | τιμή2 | | ...
Εάν προκύψει κάποιο σφάλμα κατά τη διάρκεια της εκτέλεσης του script (π.χ. προβλήματα με συγκεκριμένες σελίδες), το σφάλμα θα εμφανιστεί στο terminal, και το script θα συνεχίσει να επεξεργάζεται τις υπόλοιπες σελίδες.
Αυτό το script αναπτύχθηκε από τον Geraki για την αυτοματοποίηση της συλλογής πληροφοριών από πρότυπα στην ελληνική Wikipedia.