Skip to content

eellak/glossAPI

Repository files navigation

Στόχος της ΕΕΛΛΑΚ είναι η ανάπτυξη ενός Ελληνικού μοντέλου τεχνητής νοημοσύνης(ΤΝ) ανοιχτού λογισμικού, που ο κώδικας του θα διατίθεται με την άδεια ανοιχτού λογισμικού EUPL και τα δεδομένα του με την άδεια Creative Commons, 1ος στόχος του glossAPI είναι η συγκέντρωση, επεξεργασία και συντήρηση αντιπροσωπευτικών συνόλων ελληνικών κειμένων ώστε να μπορεί ένα μοντέλο ΤΝ να χειρίζεται σωστά την Ελληνική γλώσσα.

🚀 Δημιουργεία καθαρισμένων κειμενικών δεδομένων με χρήσιμα μεταδεδομένα

Datasets

95Κ Δείγμα Ελληνικής (95K Greek Sample)

A diverse sample of 95,000 Greek texts, providing a broad representation of modern Greek language usage. Useful for general NLP tasks and language modeling.

Σχολικά Βιβλία (School Books)

Collection of Greek school textbooks and educational materials. Great resource for educational NLP applications and studying formal Modern Greek.

Δημώδης Λογοτεχνία (Folk Literature)

Traditional Greek folk literature, including stories, songs, and poems. Valuable for cultural preservation and studying regional Greek variations.

Ελληνικά Κείμενα Project Gutenberg (Project Gutenberg Greek Texts)

Public domain Greek texts from Project Gutenberg, spanning various periods and genres. Excellent for literary analysis and historical language studies.

1000 Πρώτα Χρόνια Ελληνικής (First 1000 Years of Greek)

Texts covering the first millennium of written Greek, crucial for studying the evolution of the Greek language and historical linguistics.

Κλασική Αρχαία Ελληνική Γραμματεία (Classical Ancient Greek Literature)

Core works of Classical Greek literature, including philosophical, historical, and dramatic texts. Essential for classical studies and ancient Greek NLP.

Ελληνικά Κείμενα Wikisource (Wikisource Greek Texts)

🚧 Υπό επεξεργασία (Work in Progress)

Πέργαμος (Πέργαμος)

  • [✓] Scraped
  • ⌛ Downloading
  • Cleaned
  • Uploaded with metadata

Συλλογή κειμένων από την πλατφόρμα Πέργαμος. Collection of texts from the Pergamos' University theses archive.

Κάλλιπος (Kallipos)

  • [✓] Scraped
  • Downloaded
  • Cleaned
  • Uploaded with metadata

Ακαδημαϊκά συγγράμματα από την πλατφόρμα Κάλλιπος. Open source academic textbooks from Kallipos.

Έγγραφα ΕΕ (EU Documents)

  • Downloaded
  • Cleaned
  • Uploaded with metadata

Επίσημα έγγραφα της Ευρωπαϊκής Ένωσης. Official documents of the European Union.

[γlo'sapi]

glossAPI, το

Ένα έργο της ΕΕΛΛΑΚ στον χώρο των ψηφιακών ανθρωπιστικών επιστημών που αξιοποιεί ελεύθερα διαθέσιμες πηγές για τη συγκέντρωση ενός εκτενούς σώματος κειμένων υψηλής ποιότητας τα οποία παρέχονται με άδεια Creative Commons. Το glossAPI καλύπτει ένα ευρύ φάσμα θεματικών περιοχών, από την επιστήμη και τη λογοτεχνία έως τα νομικά κείμενα, με δεδομένα που υφίστανται επιμελή επεξεργασία και αποδελτίωση.

Στόχος του glossAPI είναι να διευκολύνει την επεξεργασία κειμενικών δεδομένων και την εκπαίδευση σύγχρονων γλωσσικών μοντέλων. Όλα τα εργαλεία που αναπτύσσει διατίθενται ελεύθερα με άδεια EUPL μέσω του αποθετηρίου του στο Github.

Το glossAPI συμβάλει στην ανάπτυξη των ελληνικών ανοιχτών κειμενικών δεδομένων, ενθαρρύνοντας ερευνητές και φοιτητές να χρησιμοποιήσουν τα εργαλεία που αναπτύχθηκαν, και να επεκτείνουν το κώδικα και τα δεδομένα προς κατευθύνσεις που τους ενδιαφέρουν.

[ 1: greeklish < γλωσσάρι 2: αγγλ. gloss < μεσαιων. αγγλ. gloze < μεσαιων. λατ. glōsa < κλασ. λατ. glōssa < αρχ. γλῶσσα: "γλώσσα, λέξη" + αγγλ. API: Application Programming Interface ]

Επικοινωνία/ contact at: [email protected]

About

Ελληνικά κειμενικά δεδομένα - - Datasets in the Greek language

Topics

Resources

License

Stars

Watchers

Forks