Partout dans le monde, des entreprises travaillent avec des reçus. Dans certains cas pour la garantie, dans d’autres cas pour des raisons administratives. Au cours des deux dernières années, les reçus ont également été identifiés comme étant une précieuse source de données pour les entreprises de fidélisation et d’analyse de données. De plus en plus de ces entreprises nous contactent pour en savoir plus sur notre technologie d’OCR extrayant les données des articles sur les reçus. L’efficacité et la fiabilité de notre technologie sont nos arguments phares. Dans ce blog, nous donnerons plus d’informations sur la façon dont sont extraites les données des reçus.
Que sont donc les lignes sur les reçus?
Le logiciel d’OCR Klippa peut transformer n’importe quelle image en un document texte structuré utilisable pour l’analyse de données. En ce qui concerne les tâches administratives, le commerçant, les dates, montants et valeurs de TVA sont des informations pertinentes. Pour les sociétés de fidélisation et de données, il est beaucoup plus important de savoir quels produits sont achetés, dans quelles combinaisons et pour quels prix. Par exemple le pain acheté pour 1€ à l’épicerie combiné avec deux briques de lait à 1.5€ l’unité. C’est en cela que consiste l’extraction de données ligne par ligne.
Alors, comment ça marche?
Il s’agit d’un processus étape par étape. Dès que la photo d’un reçu est téléchargée, elle est traitée par plusieurs systèmes Klippa. Tout d’abord, la qualité du document est déterminée en fonction de l’éclairage, de la taille et de la résolution. Si le document est de bonne qualité, il est converti en fichier texte brut à l’aide de l’OCR. Ce fichier texte est complètement déstructuré et peut être comparé à un bloc-notes. À ce stade, il est encore difficile pour un ordinateur de différencier les lignes et les autres informations. L’étape suivante est notre algorithme de classification des documents basé sur l’IA. Ce système détermine, en fonction du contenu du justificatif, s’il s’agit d’un reçu, ou d’une facture ou d’un bulletin de versement. Le type de document est significatif pour les dernières étapes de traitement. Dans cette dernière étape, le texte brut est convertit en informations structurées avec notre logiciel intelligent. Chaque morceau de texte est étiqueté afin de lui donner un sens. Dès lors, les informations peuvent être partagées en XML, JSON ou CSV. Le nom du commerçant, les dates, les heures, les montants, les valeurs TVA, les lignes etc, sont étiquetés séparément. En utilisant ces 4 étapes, l’image d’un document est convertie en données structurées, prêtes pour l’analyse des données et la fidélisation. Dans le visuel ci-dessous, vous pouvez voir 3 des 4 étapes:


Pour quels types de reçus Klippa OCR fonctionne-t-il?
Bonne question ! Il existe plusieurs façons d’extraire les données des lignes des justificatifs. L’une est une solution basée sur un modèle et l’autre une solution universelle. Travailler avec des modèles implique la construction d’un analyseur fixe pour chaque type de réception. La qualité peut être très bonne si vous n’avez que peu de marchands différents dans votre ensemble de documents. Cependant, vous travaillez avec de nombreux marchands différents dans votre système. Comme presque tous les magasins utilisent leur propre disposition des reçus, travailler avec des modèles peut prendre beaucoup de temps. Chez Klippa, nous préférons généralement travailler avec une solution universelle basée sur le machine learning. La précision se situe autour de 95%, bien au-dessus de la moyenne du marché. Notre solution universelle permet de traiter tout type de reçu émis en Europe en 2 secondes. Des épiceries aux magasins d’électronique ! En fonction de votre cas d’utilisation, nous trouverons toujours la meilleure solution.
Intéressé par l’implémentation de notre API OCR ou de notre SDK caméra pour l’OCR et l’extraction de données ? Contactez-nous ! Un autre problème d’OCR ou d’apprentissage machine que vous aimeriez résoudre? Mettez-nous au défi!