Στόχος της ΕΕΛΛΑΚ είναι η ανάπτυξη ενός Ελληνικού μοντέλου τεχνητής νοημοσύνης(ΤΝ) ανοιχτού λογισμικού, που ο κώδικας του θα διατίθεται με την άδεια ανοιχτού λογισμικού EUPL και τα δεδομένα του με την άδεια Creative Commons, 1ος στόχος του glossAPI είναι η συγκέντρωση, επεξεργασία και συντήρηση αντιπροσωπευτικών συνόλων ελληνικών κειμένων ώστε να μπορεί ένα μοντέλο ΤΝ να χειρίζεται σωστά την Ελληνική γλώσσα.
🚀 Δημιουργεία καθαρισμένων κειμενικών δεδομένων με χρήσιμα μεταδεδομένα
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/95k_deigma_ellinikis)
A diverse sample of 95,000 Greek texts, providing a broad representation of modern Greek language usage. Useful for general NLP tasks and language modeling.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/Sxolika_vivlia)
Collection of Greek school textbooks and educational materials. Great resource for educational NLP applications and studying formal Modern Greek.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/dimodis_logotexnia)
Traditional Greek folk literature, including stories, songs, and poems. Valuable for cultural preservation and studying regional Greek variations.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/Ellinika_Keimena_Project_Gutenberg)
Public domain Greek texts from Project Gutenberg, spanning various periods and genres. Excellent for literary analysis and historical language studies.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/1000_prwta_xronia_ellhnikhs)
Texts covering the first millennium of written Greek, crucial for studying the evolution of the Greek language and historical linguistics.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/klasikh_arx_ell_grammateia)
Core works of Classical Greek literature, including philosophical, historical, and dramatic texts. Essential for classical studies and ancient Greek NLP.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/Wikisource_Greek_texts)
- [✓] Scraped
- ⌛ Downloading
- Cleaned
- Uploaded with metadata
Συλλογή κειμένων από την πλατφόρμα Πέργαμος. Collection of texts from the Pergamos' University theses archive.
- [✓] Scraped
- Downloaded
- Cleaned
- Uploaded with metadata
Ακαδημαϊκά συγγράμματα από την πλατφόρμα Κάλλιπος. Open source academic textbooks from Kallipos.
- Downloaded
- Cleaned
- Uploaded with metadata
Επίσημα έγγραφα της Ευρωπαϊκής Ένωσης. Official documents of the European Union.
[γlo'sapi]
Ένα έργο της ΕΕΛΛΑΚ στον χώρο των ψηφιακών ανθρωπιστικών επιστημών που αξιοποιεί ελεύθερα διαθέσιμες πηγές για τη συγκέντρωση ενός εκτενούς σώματος κειμένων υψηλής ποιότητας τα οποία παρέχονται με άδεια Creative Commons. Το glossAPI καλύπτει ένα ευρύ φάσμα θεματικών περιοχών, από την επιστήμη και τη λογοτεχνία έως τα νομικά κείμενα, με δεδομένα που υφίστανται επιμελή επεξεργασία και αποδελτίωση.
Στόχος του glossAPI είναι να διευκολύνει την επεξεργασία κειμενικών δεδομένων και την εκπαίδευση σύγχρονων γλωσσικών μοντέλων. Όλα τα εργαλεία που αναπτύσσει διατίθενται ελεύθερα με άδεια EUPL μέσω του αποθετηρίου του στο Github.
Το glossAPI συμβάλει στην ανάπτυξη των ελληνικών ανοιχτών κειμενικών δεδομένων, ενθαρρύνοντας ερευνητές και φοιτητές να χρησιμοποιήσουν τα εργαλεία που αναπτύχθηκαν, και να επεκτείνουν το κώδικα και τα δεδομένα προς κατευθύνσεις που τους ενδιαφέρουν.
[ 1: greeklish < γλωσσάρι 2: αγγλ. gloss < μεσαιων. αγγλ. gloze < μεσαιων. λατ. glōsa < κλασ. λατ. glōssa < αρχ. γλῶσσα: "γλώσσα, λέξη" + αγγλ. API: Application Programming Interface ]
Επικοινωνία/ contact at: [email protected]