L'extraction de données documentaires avec Klippa

L'extraction de données documentaires avec Klippa

Conserver de l’information sur papier dans des chemises ou des boîtes est une pratique qu’on observe depuis de nombreuses années. Avec l’apparition des ordinateurs et des imprimantes, il est devenu très facile d’imprimer toutes les informations qui vous sont utiles. Contrats, factures, tickets, CV et bien d’autres ont été imprimés sur papier à grande échelle au cours de ces 20 dernières années. Mais avec l’apparition de l’ordinateur individuel, il est aussi devenu beaucoup plus simple de stocker l’information numériquement. Au cours de ces 5 dernières années, les solutions de stockage cloud telles que Dropbox et Google Drive ont rendu le stockage numérique encore plus accessible. Lentement, nous commençons à passer au stockage entièrement numérique de l’information. Cette transition de l’information sur papier à l’information numérique a conduit au domaine de l’extraction de données documentaires. De quoi s’agit-il ? Comment cela fonctionne-t-il ? Et comment Klippa peut-il vous aider à extraire les données de vos documents ? Cet article répond à vos questions.

Qu’est-ce que l’extraction des données documentaires ?

Il s’agit d’un procédé qui permet d’extraire et de stocker les informations contenues dans des documents papier sous un format structuré, suite à la numérisation ou la photographie de ces documents (y compris à l’aide d’un smartphone). Qu’entend-t-on par format de données structuré ? Il s’agit ici d’un format cohérent et facile à comprendre qui aide les ordinateurs à analyser et communiquer les données. Au lieu de longs fichiers texte, le contenu est divisé et marqué avec des identificateurs pour repérer les informations importantes. Un peu comme la mise en évidence d’un texte sur papier avec un surligneur pour en créer un résumé. Les identificateurs sont ensuite placés dans un fichier de format CSV, JSON, XLSX ou XML. Ci-dessous un exemple de format JSON :

[ {
“Marchand” : “Nelson”,
“Date” : “20-01-2019”,
“Montant” : “20”,
“Devise” : “EUR”
}]

Comment fonctionne l’extraction des données documentaires ?

L’extraction d’informations à partir de documents papier se fait en plusieurs étapes. La première consiste à convertir le document papier en un document numérique comme par exemple un PDF ou JPG, par le biais de la numérisation ou de la simple photographie, réalisables généralement à l’aide d’un scanner ou d’un téléphone portable. Dès lors que le document est sous format numérique, nous obtenons donc une image du document. Cependant aucune information contenue n’est lisible par un ordinateur, pour qui il s’agit uniquement d’une série de points noirs et blancs. Nous utiliserons l’image d’un reçu ci-dessous pour illustrer les prochaines étapes. Mais il peut aussi s’agir d’une facture, d’un contrat, d’un passeport, d’une facture et bien d’autres.

Recu

Pour convertir cette image en texte, la technologie OCR entre en jeu. OCR signifie reconnaissance optique de caractères (“Optical character recognition” en anglais). Cette technologie convertit l’image d’un document en un fichier texte non structuré. La qualité de l’image, l’éclairage et la distance entre le document et l’objectif influencent le résultat et la précision de la conversion. Après la conversion OCR, nous passons d’un document image à un document texte, qui demeurent toujours incompréhensible pour un ordinateur cependant. De plus, dans de nombreux cas, seule une partie des informations contenues dans le document sont réellement pertinentes, telles que le montant total sur une facture ou les signatures et dates sur un contrat, et non le document dans son intégralité. L’étape suivante consiste à utiliser un système d’analyse intelligent qui peut lire le texte, identifier les informations importantes et les extraire pour enfin les stocker dans une base de données. Cette base de données est ensuite facilement convertible dans le format de données de votre choix. Dans l’image ci-dessous, vous pouvez voir comment notre système repère les informations importantes avant l’extraction.

Extraction de données de documents

Nous venons de vous guider à travers le processus d’extraction des informations d’un reçu. Si vous avez besoin d’un logiciel d’extraction de données sur papier, vous pourriez décider de le construire vous-même. Mais dans de nombreux cas, il est beaucoup plus efficace en termes de temps et d’argent de faire appel à des tiers spécialisés, tels que Klippa. Chez Klippa, nous fournissons des API d’OCR très flexibles pour extraire les données de n’importe quel type de document, sans avoir à créer des modèles vous-même. L’entrée peut correspondre à de nombreux types de documents tels que TXT, JPG, PNG, PDF ou plus. La sortie de notre API OCR est également très flexible. Nous préférons la communiquer sous format JSON, mais par exemple les formats XML, CSV ou XLSX sont également possibles. Avec une clé API, vous pouvez être opérationnel en un jour seulement !

Parlons de votre cas d’utilisation !

Chez Klippa, nous aimons travailler sur des cas d’extraction de données documentaires intéressants. Nous avons réalisé des projets pour des entreprises du monde entier dans plus de 10 langues différentes et à partir de tous les types de fichiers que vous pouvez imaginer. Si vous avez un défi intéressant pour nous ou si vous souhaitez demander une clé API, envoyez-nous un message par chat, email ou appelez-nous !

Works with AZEXO page builder