Πηγή κειμένων Ιδρύματος Ευγενίδου #10
Replies: 3 comments
-
Όσα από τα αρχεία έλεγξα από αυτό το site ήταν PDF με περιεχόμενο σκαναρισμένη εικόνες των σελίδων, χωρίς το κείμενο. Άρα για να χρησιμοποιηθούν θα πρέπει να περάσουν από OCR. Πιο βασικό, από την παραπάνω σελίδα:
|
Beta Was this translation helpful? Give feedback.
-
Τα παλαιότερα βιβλία είναι σκαναρισμένα. Τα νεότερα είναι κείμενο. Θα κοιτάξω και άλλες πηγές. |
Beta Was this translation helpful? Give feedback.
-
Η πηγή θα ενταχθεί στην απογραφή. Το πρόβλημα με τα OCR είναι ότι ούτε αυτά έχουν τις επιθυμητές επιδόσεις στα ελληνικά, και κάθε σελίδα που επεξεργαζόμαστε με OCR φέρνει ακόμα μια επιβάρυνση σε ανθρωποπροσπάθεια για τη διόρθωση. Για τους λόγους αυτούς το έχουμε κατεβάσει σε προτεραιότητα. Υπάρχουν πολύτιμες πηγές όμως σε αυτήν την μορφή, τις οποίες δεν μπορούμε να αγνοήσουμε αν όντως στοχεύουμε σε αντιπροσωπευτική κάλυψη της Κοινής Νέας Ελληνικής, αλλά και του εκτεταμένου αρχαϊκού ρεπερτορίου που επιβιώνει ειδικά σε νομικά, ιστορικά, ακαδημαϊκά και άλλα κείμενα. Ως σημείωση σε αυτό, ας μην ξεχνάμε ότι και η περαιτέρω εκπαίδευση OCR μοντέλων στα ιστορικά ελληνικά κείμενα είναι επίσης μέσα στην στόχευσή μας, εφόσον μπορούμε να το αναλάβουμε. |
Beta Was this translation helpful? Give feedback.
-
Χαιρετώ την ομάδα που είχε την ιδέα αυτή.
Η ανοικτή βιβλιοθήκη του Ιδρύματος Ευγενίδου
https://www.eef.edu.gr/el/to-idryma/ekdoseis/katalogos-bibliothikes-seires/
περιέχει πολλά τεχνικά κείμενα στα Ελληνικά.
Υπάρχει κάποια εξέλιξη με το project; Ίσως κάποιοι βραχυπρόθεσμοι στόχοι;
Beta Was this translation helpful? Give feedback.
All reactions