Comment utiliser la classification et le tri des documents avec le machine learning et l’OCR ?

Comment utiliser la classification et le tri des documents avec le machine learning et l’OCR ?

Dans de nombreuses organisations, qu’il s’agisse d’entreprises ou d’administrations, les documents entrants étaient autrefois traités dans les salles de courrier. Ces documents pouvaient être des déclarations fiscales, des amendes, des lettres de service à la clientèle ou des factures. Chacun d’entre eux devait être acheminé vers le service approprié. Enfin, ils étaient traités manuellement et finissaient dans une grande archive.

Comme la majorité de ces organisations ont numérisé leurs systèmes au cours de la dernière décennie, la quantité de documents papier reçus diminue chaque année. De nombreuses organisations sont déjà passées à des salles de courrier, des systèmes de gestion des dossiers et des archives numériques recevant ainsi la plupart des documents par courrier électronique. Certaines travaillent avec de grands scanners numérisant le reste du processus.

La réception et la conversion des documents au format numérique ne constituent toutefois que la première étape pour réduire les erreurs et améliorer l’efficacité opérationnelle. Classer le contenu des documents, les trier, les acheminer vers le bon service et s’assurer qu’ils sont disponibles sous forme de texte consultable sont des étapes importantes. Elles peuvent être automatisées et mises en œuvre dans votre système de traitement des documents.

Dans cet article, nous vous révélons comment vous pouvez le faire avec notre solution de classification des documents.


Le secret ? Les algorithmes !

Klippa a créé des algorithmes de machine learning entraînés avec plus d’un million de documents. Les algorithmes extraient de nombreuses caractéristiques des documents, telles que les formats de fichier, les tailles de fichier et les mises en page.

Le logiciel extrait le contenu des documents à l’aide de la Reconnaissance Optique de caractères (OCR), puis effectue une analyse de texte et des statistiques à l’aide du traitement automatique des langues (Natural Language Process) afin de déterminer les catégories de sujets. Il identifie des modèles dans des ensembles de types de documents qui lui permettent de faire correspondre des documents inconnus à l’un de ces ensembles.

Pour tout document inconnu qui doit être classé, les caractéristiques sont extraites et transmises aux algorithmes. Un algorithme est essentiellement une formule mathématique, le résultat sera donc un certain score. Nous appelons cela un score de similarité. Il est comparé à toutes les catégories de documents de l’ensemble de données avec lequel le modèle a été formé. La meilleure correspondance entre le score du document et le score de la catégorie est le candidat le plus probable pour la classification.

Le visuel ci-dessous donne un exemple simplifié d’un flux de classification de documents :

Il est possible d’atteindre une précision de plus de 99 % en utilisant la classification automatique des documents, alors qu’une seule action de tri prend environ 1/10e de seconde. La classification manuelle est beaucoup plus lente, les personnes mettent beaucoup plus de temps pour trier les documents. Outre le facteur temps, les personnes ne sont généralement pas précises à plus de 95 %, selon la complexité de la tâche de tri.

Donc, si nous parlons de gros volumes, disons de trier 100 000 documents par mois, le tri manuel prendra 20 fois plus de temps et donnera lieu à 5 % d’erreurs en plus. Cela peut facilement coûter des milliers d’euros par mois à une grande organisation, alors qu’un algorithme ne vous coûtera qu’une fraction de ce montant.


La classification opérationnelle sur tous les types de documents

Tout élément (caractéristique) qu’une personne peut identifier peut être classé par notre logiciel, et un peu plus encore. La condition préalable la plus importante est qu’il y ait suffisamment de données pour entraîner un modèle permettant de comprendre les différences entre certaines caractéristiques.

À cet égard, les algorithmes de machine learning ne sont pas si différents des employés. Ils apprennent les différences entre, par exemple, une facture et un rappel de paiement grâce à une chose : l’expérience.

C’est ce que le logiciel Klippa peut faire pour vous :

  • Classification des types de fichiers
  • Classification des types de documents
  • Classification de la langue du document
  • Classification des pays d’origine
  • Classification des marchands
  • Classification des lignes d’articles
  • Classification du risque ou de l’urgence
  • Classification des données sensibles en matière de confidentialité

Classification des types de fichiers

Si vous ignorez quels fichiers sont dans votre salle de courrier ou vos archives, la première étape consiste à identifier rapidement chaque fichier stocké. Vous pouvez penser à des types de fichiers comme les PDF, les documents Word, les feuilles Excel, les courriels, les images, les scans ou tout autre type.

Classification par types de documents

Les types de documents peuvent également être classés et triés. Par exemple, vous pouvez classer des factures, des reçus, des contrats, des lettres de service client, des connaissements, des bons de commande, des bons de livraison, des relevés bancaires, des documents d’identité, des fiches de salaire etc. Klippa peut classer plus de 30 types de documents différents.

Classification par langues des documents

La langue du document peut aussi être classée et triée. Chaque document peut être étiqueté “anglais”, “néerlandais”, “espagnol” ou toute autre langue. Cela peut être très utile si vous avez des documents en plusieurs langues et que vous recherchez un document spécifique.

Classement par pays d’origine

Certains documents, comme les étiquettes d’expédition ou les passeports, contiennent des informations sur le pays d’origine. Ces informations peuvent être utilisées pour étiqueter les documents à des fins de tri. Pensez aux étiquettes de pays comme “Pays-Bas”, “Royaume-Uni” ou aux étiquettes de régions comme “Europe”.

Classification par marchands

Le commerçant est important lors du traitement des reçus et des factures. Il peut vous donner des informations sur le type de magasin où l’achat a été effectué. Les étiquettes de catégorie peuvent être utilisées pour classer le type de magasin (par exemple, quincaillerie, supermarché, magasin d’électronique ou pharmacie).

Classification par lignes de produits

La classification des lignes de produits (c’est-à-dire des achats de produits) est également une option. Grâce à un algorithme intelligent issu de l’analyse de 500 000 reçus et factures, Klippa peut classer les produits dans plus de 20 catégories, telles que “Alimentation et boissons”, “Électronique”, “Alcool”, “Transport”, etc. Cette classification peut être utilisée pour déterminer l’admissibilité à la déclaration fiscale, la distribution de points de fidélité, l’analyse de la clientèle et d’autres choses encore.

Receipt OCR

Classification du risque ou de l’urgence

Les classifications de risque ou d’urgence peuvent être importantes lorsqu’il s’agit de fixer des priorités dans des applications d’assistance à la clientèle de grand volume. Les lettres ou les courriers électroniques de clients en colère ou qui envisagent d’entamer une action en justice peuvent être classés comme “haute priorité”, tandis qu’une question d’assistance concernant une fonctionnalité peut être classée comme “basse priorité”.

Classification des données sensibles à la vie privée

Dans certains secteurs, il est important d’identifier et de classer les documents contenant des données sensibles en raison de la réglementation RGPD ou d’autres réglementations liées à la vie privée. Vous pouvez penser à des documents comme les passeports, les cartes d’identité, les permis de conduire, les cartes de crédit, les contrats, etc. L’OCR API de Klippa peut détecter et étiqueter automatiquement ces documents pour vous. Il est même possible de les rendre automatiquement anonymes en supprimant ou en noircissant des lignes spécifiques sur un document.


Les avantages de la classification et du tri des documents

Les avantages de l’OCR et de la classification des documents par l’Intelligence Artificielle qui s’appliquent à vous dépendent de votre situation. En général, tous les avantages se résument à deux choses :

  • Augmentation de l’efficacité opérationnelle → Augmentation de la vitesse de traitement et réduction du coût de traitement.
  • Amélioration de la conformité → Réduction des erreurs et recherche d’indicateurs de risques dans de grandes collections de données.

Si vous remplacez le tri manuel des documents par une solution de tri des documents basée sur la classification, vous pouvez facilement réduire votre coût opérationnel de 70 %.


Prochaines étapes

Si votre organisation doit relever des défis en matière de traitement efficace des documents, Klippa est là pour vous aider. Nous sommes heureux de vous conseiller sur les meilleures pratiques, de vous présenter les capacités de notre logiciel ou simplement d’apprendre à nous connaître. Vous trouverez ci-dessous un programmateur de démonstration en ligne qui pourrait être la prochaine étape de votre transformation numérique.

Vous pouvez également en savoir plus sur l’organisation, l’étiquetage et l’anonymisation des archives dans l’un de nos autres articles.

Planifiez une démonstration en ligne

Découvrez nos produits en 30 minutes.

Works with AZEXO page builder