Εξαγωγή Δεδομένων απο αρχείο με την Klippa

Εξαγωγή Δεδομένων απο αρχείο με την Klippa

Η εκτύπωση πληροφοριών σε χαρτί και η αποθήκευση σε φακέλους ή κιβώτια είναι κάτι που οι άνθρωποι έχουν κάνει εδώ και εκατοντάδες χρόνια. Όταν ο προσωπικός υπολογιστής (και οι εκτυπωτές) άρχισαν να γίνονται δημοφιλείς, έγινε πολύ εύκολο και απλό να εκτυπωθούν οι πληροφορίες που θέλετε σε χαρτί. Οι συμβάσεις, τα τιμολόγια, τα εισιτήρια, τα βιογραφικά και πολλά άλλα έχουν εκτυπωθεί σε τεράστια κλίμακα τα τελευταία 20 χρόνια. Αλλά με τον προσωπικό υπολογιστή, έγινε πολύ πιο εύκολη η αποθήκευση πληροφοριών ψηφιακά. Και τα τελευταία 5 χρόνια οι λύσεις αποθήκευσης στο cloud όπως το Dropbox και το Google Drive το έκαναν ακόμα πιο βολικό. Σιγά σιγά αρχίζουμε να κινούμαστε προς την πλήρη ψηφιακή αποθήκευση πληροφοριών. Αλλά επειδή πολλές πληροφορίες είναι ήδη σε χαρτί, αυτό έχει οδηγήσει στην ανάπτυξη του τομέα της εξαγωγής δεδομένων εγγράφων (Document data extraction). Αλλά τι είναι αυτό; Πώς λειτουργεί; Και πώς μπορεί να σας βοηθήσει η Klippa με την εξαγωγή δεδομένων εγγράφων;

Τι είναι η εξαγωγή δεδομένων εγγράφων;

Πρόκειται για μια τεχνολογία που επιτρέπει την εξαγωγή και αποθήκευση πληροφοριών (γραμμένων σε χαρτί) σε διαρθρωμένη μορφή, βασισμένη στη σάρωση ή τη λήψη φωτογραφιών των εγγράφων (ακόμη και με κινητό τηλέφωνο). Αλλά τι είναι μια δομημένη μορφή δεδομένων; Μια δομημένη μορφή δεδομένων είναι μια συνεπής και εύκολα κατανοητή μορφή δεδομένων που βοηθά τους υπολογιστές να κατανοούν και να επικοινωνούν τα δεδομένα. Αντί των μεγάλων αρχείων κειμένου, το κείμενο χωρίζεται και επισημαίνεται με σημειωμένες τις  σημαντικές πληροφορίες. Η διαδικασία είναι παρόμοια με την επισήμανση ενός κειμένου σε χαρτί με ένα δείκτη για να δημιουργήσετε μια περίληψη. Τα αναγνωριστικά τοποθετούνται στη συνέχεια για παράδειγμα σε CSV, JSON, XLSX ή XML. Παρακάτω μπορείτε να δείτε ένα παράδειγμα μορφής JSON:

[ { 
“Εμπορος”: “Nelson”,
“Ημερομηνία”: “20-01-2019”,
“Ποσό”: “20”,
“Νόμισμα”:”EUR”
}]

Πώς λειτουργεί η εξαγωγή δεδομένων εγγράφων;

Η εξαγωγή πληροφοριών από έγγραφα χαρτιού παίρνει βήματα προβολής. Το πρώτο βήμα είναι η μετατροπή του χαρτιού σε ψηφιακό έγγραφο, όπως για παράδειγμα PDF ή JPG. Αυτό γίνεται συνήθως με μια συσκευή σάρωσης ή ένα κινητό τηλέφωνο. Μόλις το έγγραφο είναι ψηφιακό, έχετε μια εικόνα του εγγράφου, αλλά δεν υπάρχουν πληροφορίες που ο υπολογιστής μπορεί να διαβάσει. Για έναν υπολογιστή είναι απλά μια εικόνα και όχι κείμενο. Θα χρησιμοποιήσουμε την εικόνα μιας απόδειξης παρακάτω για να δείξουμε τα επόμενα βήματα. Έχοντας υπό όψη ότι  αυτό το έγγραφο θα μπορούσε επίσης να είναι ένα τιμολόγιο, ένα συμβόλαιο, ένα διαβατήριο, ένα νομοσχέδιο χρησιμότητας ή πολλά άλλα πράγματα.

Demo receipt

Για να μετατρέψετε αυτή την εικόνα σε κείμενο, χρησιμοποιείται η τεχνολογία OCR. Το OCR σημαίνει οπτική αναγνώριση χαρακτήρων(Optical Character Recognition). Αυτή η τεχνολογία μετατρέπει την εικόνα ενός εγγράφου πίσω σε ένα μη δομημένο αρχείο κειμένου. Φυσικά η ποιότητα της εικόνας, ο φωτισμός και η απόσταση από το έγγραφο από το σημείο σάρωσης επηρεάζουν το αποτέλεσμα και την ακρίβεια της μετατροπής. Μετά την μετατροπή OCR έχουμε ένα έγγραφο κειμένου, αλλά για έναν υπολογιστή που δεν είναι ακόμα κατανοητός. Εκτός αυτού, σε πολλές περιπτώσεις είναι λίγα τα σημαντικά δεδομένα και  όχι ολόκληρο το έγγραφο. Για παράδειγμα, το συνολικό ποσό ενός τιμολογίου ή τις υπογραφές και τις ημερομηνίες μιας σύμβασης. Το επόμενο βήμα είναι να χρησιμοποιήσετε ένα έξυπνο σύστημα ανάλυσης που μπορεί να διαβάσει το κείμενο, να αναγνωρίσει σημαντικές πληροφορίες και να εξαγάγει τις σωστές πληροφορίες για να το αποθηκεύσει σε μια βάση δεδομένων. Από τη βάση δεδομένων μετατρέπεται εύκολα στη μορφή δεδομένων που προτιμάτε. Στην παρακάτω εικόνα μπορείτε να δείτε πώς τα συστήματα μας περιγράφουν σημαντικές πληροφορίες πριν από την εξαγωγή.

Μόλις σας οδηγήσαμε μέσα από την διαδικασία εξαγωγής πληροφοριών από μια απόδειξη. Αν χρειάζεστε λογισμικό εξαγωγής δεδομένων εγγράφων, μπορείτε φυσικά  να το κατασκευάσετε μόνοι σας. Αλλά σε πολλές περιπτώσεις είναι πολύ πιο αποδοτικό τόσο σε χρόνο όσο και σε χρήμα για να χρησιμοποιήσετε εξειδικευμένα τρίτα μέρη. Η Klippa είναι μια εταιρεία που ειδικεύεται σε αυτό το είδος εργασίας. Στην Klippa παρέχουμε πολύ ευέλικτα API OCR για την εξαγωγή δεδομένων από οποιοδήποτε τύπο εγγράφου που σας αρέσει, χωρίς να χρειάζεται να δημιουργείτε μόνοι σας τα πρότυπα. Η είσοδος μπορεί να είναι πολλοί τύποι εγγράφων όπως TXT, JPG, PNG, PDF ή άλλα. Το αρχείο εξαγωγής του OCR API μας είναι επίσης πολύ ευέλικτο. Προτιμούμε να επικοινωνούν μέσω του JSON, αλλά είναι επίσης δυνατή η μορφή XML, CSV ή XLSX. Με ένα κλειδί API μπορείτε να είστε έτοιμοι μέσα σε μια μέρα!

Ας μιλήσουμε για την περίπτωση χρήσης σας!

Στην Klippa αγαπάμε να δουλέψουμε σε ενδιαφέρουσες περιπτώσεις χρήσης δεδομένων εξαγωγής δεδομένων. Έχουμε κάνει έργα για εταιρείες σε όλο τον κόσμο σε πάνω από 10 διαφορετικές γλώσσες και σε κάθε τύπο αρχείου που μπορείτε να φανταστείτε. Εάν έχετε μια ενδιαφέρουσα πρόκληση για εμάς ή θέλετε να ζητήσετε ένα κλειδί API, στείλτε μας ένα μήνυμα μέσω συνομιλίας, καλέστε μας η με mail στο support@klippa.com .

Image Map WordPress builder