Επεξεργασία σειρών απόδειξης με το OCR

Επεξεργασία σειρών απόδειξης με το OCR

Οι εταιρείες σε όλο τον κόσμο εργάζονται με αποδείξεις. Σε ορισμένες περιπτώσεις για εγγύηση και σε άλλες περιπτώσεις για διοικητικούς σκοπούς. Τα τελευταία δύο χρόνια τα έσοδα έχουν επίσης αναγνωριστεί ως πολύτιμη πηγή δεδομένων για τις εταιρείες αφοσίωσης και την ανάλυση δεδομένων. Όλο και περισσότερες εταιρείες σε αυτούς τους τομείς επικοινωνούν μαζί μας για να ρωτήσoυν αν η τεχνολογία OCR μας μπορεί να αποσπάσει να εξάγει δεδομένα μιας γραμμής στοιχείων σχετικά με τις αποδείξεις. Η απάντηση είναι ευτυχώς ναι! Σε αυτό το blog θα δώσουμε κάποιες περισσότερες πληροφορίες σχετικά με τον τρόπο εξαγωγής δεδομένων γραμμής από αποδείξεις.

Επομένως, ποια είναι τα στοιχεία σε κάθε γραμμής στις αποδείξεις;

Το λογισμικό OCR Klippa μπορεί να μετατρέψει οποιαδήποτε εικόνα σε έγγραφο δομημένου κειμένου που μπορεί να χρησιμοποιηθεί για την ανάλυση δεδομένων. Για τις διοικητικές εργασίες, ο έμπορος, οι ημερομηνίες, τα ποσά και οι τιμές ΦΠΑ είναι συνήθως σχετικά. Για τις εταιρίες loyalty και data είναι πολύ πιο σημαντικό να γνωρίζουμε ποια προϊόντα αγοράζονται, σε ποιους συνδυασμούς προϊόντων και για ποιες τιμές. Όταν μιλάμε για την εξαγωγή δεδομένων από την γραμμή της απόδειξης μιλάμε για αυτού του είδους τις πληροφορίες. Είναι πληροφορίες για το ψωμί που κάποιος αγόρασε για € 1 στο παντοπωλείο σε συνδυασμό με τα δύο πακέτα γάλακτος που κοστίζουν το καθένα € 1,5.

Πως λειτουργεί, λοιπόν?

Η εκτέλεση εξόρυξης κειμένου στα στοιχεία γραμμής της απόδειξης είναι μια διαδικασία βήμα προς βήμα. Μόλις έρχεται μια φωτογραφία μιας απόδειξης, αυτή υποβάλλεται σε επεξεργασία από πολλαπλά συστήματα Klippa. Πρώτα απ ‘όλα, προσπαθούμε να προσδιορίσουμε την ποιότητα του εγγράφου με βάση τον φωτισμό, το μέγεθος και την ανάλυση. Εάν το έγγραφο έχει την κατάλληλη ποιότητα, μετατρέπεται στη συνέχεια σε ένα αρχείο με πρωτότυπο κείμενο χρησιμοποιώντας OCR. Αυτό το αρχείο κειμένου είναι τελείως αδόμητο και μπορεί να συγκριθεί με ένα κείμενο του σημειωματάριου. Σε αυτό το στάδιο είναι ακόμα δύσκολο για έναν υπολογιστή να καταλάβει ποια είναι τα στοιχεία γραμμής και ποιες είναι οι υπόλοιπες πληροφορίες. Το επόμενο βήμα είναι ο αλγόριθμος ταξινόμησης εγγράφων βάσει του AI. Αυτό το σύστημα καθορίζει με βάση το περιεχόμενο της απόδειξης εάν είναι στην πραγματικότητα  όντως μια απόδειξη, ή ίσως ένα τιμολόγιο ή ένα δελτίο πληρωμής. Ο τύπος εγγράφου σχετίζεται με τα τελευταία βήματα επεξεργασίας. Σε αυτό το τελευταίο βήμα μετατρέπουμε όλο το ακατέργαστο κείμενο σε δομημένες πληροφορίες με το ευφυές λογισμικό μας. Τοποθετούμε ετικέτα (εξήγηση) σε κάθε κομμάτι του κειμένου στο έγγραφο δίνοντας σημασία στο κείμενο. Μόλις έχουμε επισημάνει όλες τις πληροφορίες που μπορούν τώρα να μοιραστούν χρησιμοποιώντας XML, JSON ή CSV. Το εμπορικό όνομα, οι ημερομηνίες, οι χρόνοι, τα ποσά, οι τιμές ΦΠΑ, τα στοιχεία γραμμής και άλλα, όλα επισημαίνονται ξεχωριστά. Χρησιμοποιώντας αυτά τα 4 βήματα, έχουμε μετατρέψει μια εικόνα ενός εγγράφου σε δομημένα δεδομένα, έτοιμα για ανάλυση δεδομένων και σκοπούς εμπιστοσύνης. Στο παρακάτω εικονίδιο μπορείτε να δείτε 3 από τα 4 βήματα:

Reading receipt line items with OCR

Ανάγνωση στοιχείων γραμμής παραλαβής με OCR

Για ποιες αποδείξεις λειτουργεί το OCR Klippa;

Καλή ερώτηση! Υπάρχουν πολλοί τρόποι για την εξαγωγή δεδομένων γραμμής από τις αποδείξεις. Το ένα είναι μια λύση βασισμένη στο πρότυπο(fixed parser) και η άλλη μια καθολική λύση(universal solution). Η εργασία με τα πρότυπα σημαίνει ότι πρέπει να δημιουργήσετε έναν σταθερό αναλυτή για κάθε τύπο απόδειξης που θέλετε να αναλύσετε. Το πλεονέκτημα εδώ είναι ότι η ποιότητα μπορεί να είναι πολύ καλή αν έχετε μόνο έναν ή λίγους διαφορετικούς εμπόρους στο σύνολο εγγράφων σας. Το πρόβλημα εδώ είναι όταν εργάζεστε με πολλούς διαφορετικούς εμπόρους στο σύστημά σας. Επειδή σχεδόν κάθε κατάστημα χρησιμοποιεί τη δική του διάταξη απόδειξης, η εργασία με τα πρότυπα μπορεί να γίνει πολύ χρονοβόρα. Στην Klippa συνήθως προτιμούμε να εργαζόμαστε με μια καθολική λύση βασισμένη στη διδασκαλία της μηχανής(machine learning). Η ακρίβεια κυμαίνεται γύρω στο 95%, πολύ πάνω από το μέσο όρο της αγοράς. Η καθολική λύση μας μπορεί να επεξεργαστεί οποιοδήποτε είδος απόδειξης στην Ευρώπη μέσα σε 2 δευτερόλεπτα. Από τα μπακάλικα έως τα ηλεκτρονικά καταστήματα! Ανάλογα με την περίπτωση χρήσης σας, θα βρούμε πάντα την καλύτερη λύση.

Αν ενδιαφέρεστε να εφαρμόσετε το OCR API ή το SDK της φωτογραφικής μηχανής για OCR και την εξαγωγή δεδομένων, μπορείτε πάντα να επικοινωνήσετε μαζί μας. Έχετε άλλο πρόβλημα OCR ή μηχανικής μάθησης που θα θέλατε να λύσετε; Δώστε μας μια πρόκληση!

Image Map WordPress builder