Skip to content
/ tpe Public

Extracts parameter values from templates in Wikipedia

Notifications You must be signed in to change notification settings

geraki/tpe

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Template Parameter Extractor

Περιγραφή

Το Template Parameter Extractor είναι ένα script σε Python που επιτρέπει την εξαγωγή των παραμέτρων από τη χρήση ενός συγκεκριμένου προτύπου στην ελληνική Wikipedia. Το script αναζητά όλες τις σελίδες που χρησιμοποιούν το δεδομένο πρότυπο, συλλέγει τις τιμές των παραμέτρων για κάθε χρήση και τις αποθηκεύει σε ένα αρχείο μορφής TSV (Tab-Separated Values). Το αρχείο που παράγεται έχει μία σειρά για κάθε σελίδα και μία στήλη για κάθε παράμετρο.

Χαρακτηριστικά

  • Εξαγωγή παραμέτρων προτύπων από σελίδες της ελληνικής Wikipedia.
  • Δημιουργία αρχείου TSV με τις παραμέτρους ως στήλες και τα λήμματα ως σειρές.
  • Καθαρισμός των τιμών των παραμέτρων από ειδικούς χαρακτήρες (newlines, tabs) για σωστή μορφοποίηση του αρχείου.
  • Υποστήριξη ορισμού του ονόματος του προτύπου μέσω της command line, ή εναλλακτικά με εισαγωγή από τον χρήστη.

Απαιτήσεις

  • Python 3.x
  • Βιβλιοθήκες:
    • pywikibot
    • mwparserfromhell
    • argparse
    • csv

Εγκατάσταση

  1. Κλωνοποιήστε ή κατεβάστε το repository με το script.

  2. Εγκαταστήστε τις απαραίτητες βιβλιοθήκες με την εντολή:

    bash

    Copy code

    pip install pywikibot mwparserfromhell

  3. Ρυθμίστε το pywikibot για να δουλεύει με την ελληνική Wikipedia, ακολουθώντας τις οδηγίες στο επίσημο documentation του pywikibot.

Χρήση

Μπορείτε να τρέξετε το script από την command line με δύο τρόπους:

1. Δίνοντας το όνομα του προτύπου από την command line:

bash

Copy code

python tpe.py --template Κουτί_Πληροφοριών

ή

bash

Copy code

python tpe.py -t Κουτί_Πληροφοριών

2. Χωρίς να δώσετε το όνομα του προτύπου από την command line:

bash

Copy code

python tpe.py

Στη συνέχεια, το script θα σας ζητήσει να εισάγετε το όνομα του προτύπου:

Copy code

Δώσε το όνομα του προτύπου:

Αποτελέσματα

Το script θα δημιουργήσει ένα αρχείο TSV με όνομα {template_name}_parameters.tsv, όπου το {template_name} είναι το όνομα του προτύπου που δόθηκε. Το αρχείο TSV θα περιέχει τις εξής πληροφορίες:

  • Η πρώτη στήλη περιέχει το όνομα της σελίδας (τίτλος του λήμματος).
  • Οι επόμενες στήλες περιέχουν τις παραμέτρους του προτύπου. Αν κάποια παράμετρος δεν υπάρχει σε συγκεκριμένο λήμμα, η αντίστοιχη στήλη θα είναι κενή.

Παράδειγμα

Αν εκτελέσετε το script με το πρότυπο Κουτί_Πληροφοριών, το αρχείο TSV θα έχει την εξής μορφή:

Page Title       | παράμετρος1 | παράμετρος2 | παράμετρος3 | ...
---------------------------------------------------------------
Λήμμα1           | τιμή1       | τιμή2       | τιμή3       | ...
Λήμμα2           | τιμή1       |             | τιμή3       | ...
Λήμμα3           |             | τιμή2       |             | ...

Σφάλματα

Εάν προκύψει κάποιο σφάλμα κατά τη διάρκεια της εκτέλεσης του script (π.χ. προβλήματα με συγκεκριμένες σελίδες), το σφάλμα θα εμφανιστεί στο terminal, και το script θα συνεχίσει να επεξεργάζεται τις υπόλοιπες σελίδες.

Δημιουργός

Αυτό το script αναπτύχθηκε από τον Geraki για την αυτοματοποίηση της συλλογής πληροφοριών από πρότυπα στην ελληνική Wikipedia.

About

Extracts parameter values from templates in Wikipedia

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages