Traitement des postes individuels sur les justificatifs avec OCR

Traitement des postes individuels sur les justificatifs avec OCR

Partout dans le monde, des entreprises travaillent avec des reçus. Dans certains cas pour la garantie et dans d’autres cas pour des raisons administratives. Au cours des deux dernières années, les reçus ont également été identifiés comme une source précieuse de données pour les entreprises de fidélisation et d’analyse de données. De plus en plus d’entreprises dans ces domaines nous contactent pour savoir si notre technologie d’OCR peut extraire les données des articles sur les reçus. Heureusement, la réponse est oui ! Dans ce blog, nous donnerons plus d’informations sur la façon dont nous extrayons les données des postes des reçus.

Que sont donc les postes sur les reçus?

Le logiciel d’OCR Klippa peut transformer n’importe quelle image en un document texte structuré qui peut être utilisé pour l’analyse de données. Pour les tâches administratives, le commerçant, les dates, les montants et les valeurs TVA sont généralement pertinents. Pour les sociétés de fidélisation et de données, il est beaucoup plus important de savoir quels produits sont achetés, dans quelles combinaisons de produits et pour quels prix. Lorsque nous parlons d’extraction de données sur les postes de réception, nous parlons de ce type d’information. C’est l’information sur le pain que quelqu’un a acheté pour €1 à l’épicerie combiné avec les deux cartons de lait qui coûtent chacun €1,5.

Alors, comment ça marche?

L’exécution du text mining sur les postes individuels de réception est un processus étape par étape. Dès qu’une photo d’un reçu est reçue, elle est traitée par plusieurs systèmes Klippa. Tout d’abord, nous essayons de déterminer la qualité du document en fonction de l’éclairage, de la taille et de la résolution. Si le document est de bonne qualité, il est ensuite converti en fichier texte brut à l’aide de l’OCR. Ce fichier texte est complètement déstructuré et peut être comparé à un texte de bloc-notes. À ce stade, il est encore difficile pour un ordinateur de comprendre quels sont les postes et quelles sont les autres informations. L’étape suivante est notre algorithme de classification des documents basé sur l’IA. Ce système détermine en fonction du contenu du justificatif s’il s’agit réellement d’un justificatif, ou peut-être d’une facture ou d’un bulletin de versement. Le type de document est significatif pour les dernières étapes de traitement. Dans cette dernière étape, nous convertissons tout le texte brut en informations structurées avec notre logiciel intelligent. Nous étiquetons chaque morceau de texte dans le document en donnant un sens au texte. Dès que nous avons étiqueté toutes les informations, elles peuvent être partagées en XML, JSON ou CSV. Le nom du commerçant, les dates, les heures, les montants, les valeurs TVA, les postes individuels et plus encore sont tous étiquetés séparément. En utilisant ces 4 étapes, nous avons converti une image d’un document en données structurées, prêtes pour l’analyse des données et la fidélisation. Dans le visuel ci-dessous, vous pouvez voir 3 des 4 étapes:

Traitement des postes individuels sur les justificatifs avec OCR

Pour quels types de reçus Klippa OCR fonctionne-t-il?

Bonne question ! Il existe plusieurs façons d’extraire les données de poste individuel des justificatifs. L’une est une solution basée sur un modèle et l’autre une solution universelle. Travailler avec des modèles signifie que vous devez construire un analyseur fixe pour chaque type de réception que vous souhaitez analyser. L’avantage ici est que la qualité peut être très bonne si vous n’avez qu’un ou quelques marchands différents dans votre ensemble de documents. Le problème ici, c’est que vous travaillez avec de nombreux marchands différents dans votre système. Comme presque tous les magasins utilisent leur propre disposition des reçus, travailler avec des modèles peut prendre beaucoup de temps. Chez Klippa, nous préférons généralement travailler avec une solution universelle basée sur l’apprentissage machine. La précision se situe autour de 95%, bien au-dessus de la moyenne du marché. Notre solution universelle permet de traiter tout type de reçu en Europe en 2 secondes. Des épiceries aux magasins d’électronique! En fonction de votre cas d’utilisation, nous trouverons toujours la meilleure solution.

Si vous êtes intéressé par l’implémentation de notre API OCR ou de notre SDK caméra pour l’OCR et l’extraction de données, vous pouvez toujours nous contacter. Vous avez un autre problème d’OCR ou d’apprentissage machine que vous aimeriez résoudre? Mettez-nous au défi!

Translated with an automatic translator. Apologies for any mistakes.

Works with AZEXO page builder