Toutes les entreprises du monde travaillent avec des reçus. Dans certains cas pour la garantie et dans d’autres cas à des fins administratives. Au cours des deux dernières années, les reçus ont également été identifiés comme une source de données précieuse pour les entreprises de fidélisation et d’analyse de données. De plus en plus d’entreprises de ces secteurs nous contactent pour nous demander si notre technologie d’OCR peut extraire des données par ligne sur les reçus. La réponse est heureusement oui ! Dans cet article, nous vous donnerons plus d’informations sur la façon dont nous extrayons les données des articles de ligne des reçus.
Quelles sont les lignes sur les reçus ?
Le logiciel Klippa OCR peut transformer n’importe quelle image en un document textuel structuré qui peut être utilisé pour l’analyse des données. Pour les tâches administratives, le commerçant, les dates, les montants et les valeurs de TVA sont généralement pertinents. Pour les entreprises de fidélisation et de données, il est beaucoup plus pertinent de savoir quels produits sont achetés, dans quelles combinaisons de produits et pour quels prix. Lorsque nous parlons d’extraction de données sur les lignes de la facture, nous parlons de ce type d’informations. Il s’agit d’informations sur le pain que quelqu’un a acheté pour 1 € à l’épicerie, combiné aux deux briques de lait à 1,5€ l’unité.
Comment cela fonctionne-t-il ?
L’exploration de texte sur les lignes de reçus est un processus étape par étape. Dès que l’image du reçu est reçue, elle est traitée par plusieurs systèmes Klippa. Tout d’abord, nous essayons de déterminer la qualité du document en fonction de l’éclairage, de la taille et de la résolution. Si le document est de bonne qualité, il est ensuite converti en un fichier texte brut à l’aide de l’OCR. Ce fichier texte est complètement déstructuré et peut être comparé à un texte de bloc-notes. À ce stade, il est encore difficile pour un ordinateur de comprendre ce que sont les postes et les autres informations. L’étape suivante est notre algorithme de classification des documents basé sur l’IA. Ce système détermine, sur la base du contenu du reçu, s’il s’agit effectivement d’un reçu, ou peut-être d’une facture ou d’un bordereau de paiement. Le type de document est pertinent pour les dernières étapes du traitement. Dans cette dernière étape, nous convertissons tout le texte brut en informations structurées grâce à notre logiciel intelligent. Nous étiquetons chaque élément de texte du document en lui donnant un sens. Dès que nous avons étiqueté toutes les informations, elles peuvent être partagées en utilisant XML, JSON ou CSV. Le nom du commerçant, les dates, les heures, les montants, les valeurs de TVA, les lignes d’articles et autres sont tous étiquetés séparément. Grâce à ces 4 étapes, nous avons converti l’image d’un document en données structurées, prêtes pour l’analyse de données et la fidélisation. Dans le visuel ci-dessous, vous pouvez voir 3 des 4 étapes :


Pour quels reçus l’OCR Klippa fonctionne-t-il ?
Bonne question ! Il existe plusieurs façons d’extraire les données des postes individuels des reçus. L’une est une solution basée sur des modèles et l’autre une solution universelle. Travailler avec des modèles signifie que vous devez construire un analyseur syntaxique fixe pour chaque type de reçu que vous souhaitez analyser. L’avantage de cette solution est que la qualité peut être très bonne si vous n’avez qu’un seul ou quelques marchands différents dans votre ensemble de documents. Le problème se pose lorsque vous travaillez avec de nombreux commerçants différents dans votre système. Comme presque chaque magasin utilise sa propre présentation de reçu, travailler avec des modèles peut devenir très long. Chez Klippa, nous préférons généralement travailler avec une solution universelle basée sur le deep learning. La précision est d’environ 95 %, ce qui est bien supérieur à la moyenne du marché. Notre solution universelle peut traiter tout type de reçu européen en 2 secondes. Des épiceries aux magasins d’électronique ! En fonction de votre cas d’utilisation, nous trouverons toujours la meilleure solution.
Cela fonctionne-t-il uniquement pour les reçus ?
Outre les lignes d’articles, Klippa peut extraire de nombreux champs de données différents à partir de plusieurs types de documents différents. L’extraction de données de lignes d’articles sur des factures par exemple, mais aussi l’extraction de données sur des contrats ou l‘OCR de documents d’identité.
Prochaines étapes
Si vous êtes intéressé par la mise en œuvre de notre API OCR ou de notre SDK de caméra pour l’OCR et l’extraction de données, vous pouvez toujours nous contacter. Vous avez un autre problème d’OCR ou de machine learning que vous aimeriez résoudre ? Mettez-nous au défi !