Como utilizar a classificação de documentos com machine learning e OCR

Como utilizar a classificação de documentos com machine learning e OCR

Diversas empresas, tanto corporativas e estatais, processavam os documentos recebidos por correio. Estes documentos podiam variar desde declarações de impostos, multas, cartas e faturas de serviço ao cliente. Cada documento tinha que ser encaminhado para o departamento apropriado. Os documentos eram processados manualmente e acabavam por ficar guardados num grande arquivo.

Como a maioria dessas empresas digitalizaram os sistemas durante a última década, a quantidade de documentos em papel recebidos tem diminuído a cada ano. Muitas organizações já mudaram para correio digital, sistemas de gestão de casos e arquivos e recebem a maioria dos documentos por e-mail. Algumas trabalham com grandes scanners, digitalizando a parte restante do processo.

Receber e converter documentos para um formato digital, no entanto, é apenas o primeiro passo para reduzir erros e melhorar a eficiência operacional. Classificar o conteúdo de documentos, classificar documentos, encaminhar documentos para o departamento certo e garantir que os documentos estejam disponíveis em texto, são os próximos passos que podem ser automatizados e implementados na configuração do processamento de documentos na sua empresa.

Neste blog, vamos descobrir como pode obter esses resultados com a nossa solução de classificação de documentos.


O segredo são os algoritmos

A Klippa criou algoritmos de machine learning que são formados por um conjunto de mais de 1 milhão de documentos. Os algoritmos extraem muitas características de documentos, tais como formatos de arquivo, tamanhos de arquivo e layouts.

O software extrai o conteúdo de documentos usando o Reconhecimento Óptico de Caracteres (OCR), e realiza análises de texto e estatísticas usando o PNL para determinar topic clusters. Identifica padrões dentro de conjuntos de tipos de documentos que lhe permitem combinar documentos desconhecidos com um desses conjuntos.

Para qualquer documento desconhecido que tenha que ser classificado, as características são extraídas e inseridas nos algoritmos. Um algoritmo é basicamente uma fórmula matemática, portanto, o resultado será uma certa classificação. Chamamos isto de uma classificação de semelhança. Esta classificação é comparada a todas as categorias de documentos do conjunto de dados com os quais o modelo foi elaborado. A melhor correspondência entre a classificação do documento e a classificação da categoria é o mais provável candidato à classificação.

O visual abaixo é um exemplo simplificado de um fluxo de classificação de documentos:

É possível obter mais de 99% de precisão usando a classificação automatizada de documentos, enquanto uma única ação de classificação leva por volta de 1/10 por segundo. A classificação manual é muito mais lenta, as pessoas levam pelo menos alguns segundos para classificar os documentos. Além da ineficiência da velocidade, as pessoas geralmente não são mais do que 95% precisas, dependendo da complexidade da tarefa.

Portanto, se estivermos a falar de grandes volumes, suponhamos que a classificação de 100.000 documentos por mês, a classificação manual levará 20 vezes mais tempo e resultará em 5% a mais de erros. Isto custará milhares de euros por mês a uma grande organização, enquanto que um algoritmo custaria apenas uma fração disso.


A classificação funciona para quase todos os tipos de documentos

Qualquer recurso (característica) que uma pessoa possa identificar pode ser classificado através do nosso software. O pré-requisito mais importante é que haja dados suficientes para treinar o modelo para entender as diferenças entre certas características.

Os algoritmos de machine learning, não são muito diferentes dos humanos. Por exemplo, os algoritmos baseiam-se nas diferenças entre, uma fatura e um aviso de pagamento, através da experiência.

Isto é o que o software Klippa pode fazer pela sua empresa:

  • Classificação do tipo de arquivo
  • Classificação do tipo de documento
  • Classificação do idioma do documento
  • Classificação do país de origem
  • Classificação do comerciante
  • Classificação de itens de linha
  • Classificação de risco ou urgência
  • Classificação de dados de privacidade

Classificação do tipo de arquivo

Se não souber os arquivos que tem no seu e-mail ou arquivo, o primeiro passo é identificar rapidamente cada um dos arquivos que estão armazenados. Poderá considerar os tipos de arquivos como PDFs, documentos Word, ficheiros em Excel, e-mails, imagens, digitalizações ou qualquer outro tipo de arquivo.

Classificação do tipo de documento

Os tipos de documentos podem ser classificados. Por exemplo, é possível classificar faturas, recibos, contratos, cartas de serviço ao cliente, documentos de transporte, pedidos de compra, recibos de entrega, extratos bancários, documentos de identidade, salário e muito mais. A Klippa permite a classificação de mais de 30 tipos diferentes de documentos.

Classificação do idioma do documento

O idioma do documento também pode ser classificado. Cada documento pode ser classificado por ‘inglês’, ‘holandês’, ‘espanhol’ ou qualquer outro idioma. Isto pode ser muito útil caso se tenha documentos em vários idiomas e procure por um idioma em particular.

Classificação do país de origem

Alguns documentos, tais como os selos de embarque ou passaportes, têm informações sobre o país de origem. Isto pode ser usado para rotular os documentos para fins de classificação. Considere os selos de países como “Países Baixos”, “Reino Unido” ou os selos de regiões como “Europa”.

Classificação do comerciante

Os comerciantes são importantes no processamento de recibos e faturas. Pode dar-lhe informações sobre o tipo de loja e onde a compra foi feita. As etiquetas de categoria podem ser usadas para classificar o tipo de loja (por exemplo, loja de ferramentas, supermercado, loja de eletrodomésticos ou farmácia).

Classificação de itens de linha

A classificação dos itens de linha (ou seja, compras de produtos) também é uma opção. Com um algoritmo inteligente que aprendeu com a análise de 500.000 recibos e faturas, a Klippa classifica produtos em mais de 20 categorias, tais como ‘Alimentos e bebidas’, ‘Eletronicos’, ‘Alcoólicos’, ‘Transporte’ e muito mais. Isto pode ser usado para determinar a elegibilidade da declaração de impostos, distribuição de pontos de fidelidade, análise de clientes e muito mais.

Receipt OCR

Classificação de risco ou urgência

Classificações de risco ou urgência podem ser extremamente importantes ao tentar estabelecer prioridades no apoio ao cliente. Cartas de reclamação ou e-mails de clientes que pretendem iniciar uma ação legal podem ser classificadas como “alta prioridade”, enquanto que uma questão de menos prioridade será classificada como “baixa prioridade”.

Classificação de dados confidenciais

Em determinadas indústrias, é importante identificar e classificar documentos que contenham dados confidenciais devido à GDPR- ou outras regulamentações relacionadas à privacidade. Há documentos como passaportes, cartões de identidade, cartas de condução, cartões de crédito, contratos, etc. O OCR API da Klippa pode detectar e identificar esses documentos automaticamente. É possível até mesmo torná-los automaticamente anónimos, removendo ou colocando linhas específicas em negrito no documento.


Os benefícios classificação de documentos

Os benefícios do OCR e da classificação de documentos com base na IA se aplicam no seu caso, dependendo de sua situação. Geralmente, todos os benefícios se resumem a duas vantagens:

  • Aumento da eficiência operacional → Aumentar a velocidade de processamento e reduzir o custo de processamento
  • Melhoria da conformidade → Reduzindo erros e encontrando indicadores de riscos em grandes coleções de dados

Se substituir a classificação manual de documentos por uma solução de classificação, poderá reduzir o custo operacional facilmente até 70%.


Próximos passos

Caso a sua empresa tenha algum desafio em relação ao processamento eficiente de documentos, a Klippa está aqui para o ajudar. Temos todo o prazer de aconselhar sobre as melhores práticas, e comprovar as capacidades de nosso software. Abaixo pode agendar uma demonstração online que poderá ser o próximo passo na sua transformação digital.

Também pode obter mais informações sobre a anonimização de arquivos aqui.

Agende uma demonstração gratuita

Obtenha uma visão geral da Klippa em apenas 30 minutos!

Works with AZEXO page builder