Τι είναι OCR;

Η Οπτική Αναγνώριση Χαρακτήρων (OCR) είναι η τεχνολογία που μετατρέπει εικόνες που περιέχουν κείμενο σε χαρακτήρες που μπορούν να διαβαστούν από μηχανές. Λειτουργεί αναλύοντας τα σχήματα και τα μοτίβα σε μια εικόνα και συγκρίνοντάς τα με γνωστές αναπαραστάσεις χαρακτήρων. Το OCR χρησιμοποιείται ευρέως για την ψηφιοποίηση εκτυπωμένων εγγράφων, την εξαγωγή κειμένου από φωτογραφίες και την κατάστασης σαρωμένου περιεχομένου αναζητήσιμου ή επεξεργάσιμου.

Το σύγχρονο OCR που βασίζεται σε περιηγητή χρησιμοποιεί εκπαιδευμένα μοντέλα νευρωνικών δικτύων που εκτελούνται εξ ολοκλήρου στη συσκευή σας. Αυτό σημαίνει ότι οι εικόνες σας δεν αποστέλλονται ποτέ σε διακομιστή — η αναγνώριση γίνεται τοπικά χρησιμοποιώντας την CPU σας.

Περιγραφή εργαλείου

Αυτό το εργαλείο εξάγει κείμενο από εικόνες απευθείας στον περιηγητή σας χρησιμοποιώντας τη μηχανή OCR Tesseract.js. Ανεβάστε μια φωτογραφία, στιγμιότυπο ή σαρωμένο έγγραφο, επιλέξτε τη γλώσσα του κειμένου και κάντε κλικ στην Εξαγωγή κειμένου. Το αναγνωρισμένο κείμενο εμφανίζεται στην περιοχή εξόδου, όπου μπορείτε να το αντιγράψετε στο πρόχειρο ή να το κατεβάσετε ως αρχείο .txt. Δεν απαιτείται εγκατάσταση, ανεβάσματα ή σύνδεση στο διαδίκτυο μετά τη φόρτωση της σελίδας.

Χαρακτηριστικά

  • Εκτελείται εξ ολοκλήρου στον περιηγητή — χωρίς ανεβάσματα αρχείων, πλήρη ιδιωτικότητα
  • Υποστηρίζει 19 γλώσσες συμπεριλαμβανομένων των Αγγλικών, Ρωσικών, Κινεζικών (Απλοποιημένα και Παραδοσιακά), Ιαπωνικών, Κορεατικών, Αραβικών, Ινδικών και κύριων Ευρωπαϊκών γλωσσών
  • Δέχεται μορφές εικόνων JPEG, PNG, WebP, GIF, BMP και TIFF

Υποστηριζόμενες μορφές

Μορφή Επεκτάσεις
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Υποστηριζόμενες γλώσσες

Γλώσσα Κώδικας
English eng
Russian rus
French fra
German deu
Italian ita
Spanish spa
Portuguese por
Dutch nld
Polish pol
Arabic ara
Chinese (Simplified) chi_sim
Chinese (Traditional) chi_tra
Japanese jpn
Korean kor
Hindi hin
Turkish tur
Swedish swe
Norwegian nor
Finnish fin

Συμβουλές

  • Καλύτερες εικόνες παράγουν καλύτερα αποτελέσματα: Χρησιμοποιήστε εικόνες υψηλής αντίθεσης με ευκρινές, ομοιόμορφα φωτισμένο κείμενο. Θολές ή χαμηλής ανάλυσης φωτογραφίες θα μειώσουν την ακρίβεια.
  • Επιλέξτε τη σωστή γλώσσα: Η ακρίβεια αναγνώρισης μειώνεται σημαντικά όταν επιλέγεται λάθος γλώσσα, ειδικά για μη λατινικά σενάρια.
  • Σκούρο κείμενο σε ανοιχτό φόντο λειτουργεί καλύτερα: Εάν η εικόνα σας έχει ανοιχτό κείμενο σε σκούρο φόντο, δοκιμάστε να το αντιστρέψετε πριν το ανεβάσετε.
  • Σαρωμένα έγγραφα: Σαρώστε σε 300 DPI ή υψηλότερο για καλύτερα αποτελέσματα με εκτυπωμένο κείμενο.

Περιορισμοί

  • Η ακρίβεια αναγνώρισης εξαρτάται σε μεγάλο βαθμό από την ποιότητα της εικόνας, το στυλ γραμματοσειράς και το μέγεθος του κειμένου. Το χειρόγραφο, οι διακοσμητικές γραμματοσειρές και το πολύ μικρό κείμενο ενδέχεται να μην αναγνωρίζονται καλά.
  • Τα αρχεία μοντέλου γλώσσας λαμβάνονται κατά την πρώτη χρήση (μερικά megabyte το καθένα), επομένως η πρώτη εξαγωγή ενδέχεται να διαρκέσει περισσότερο.
  • Τα διάταξη πολλών στηλών ενδέχεται να παράγουν κείμενο σε μια απροσδόκητη σειρά ανάγνωσης.