Diversas empresas, tanto corporativas como governamentais, processavam os documentos recebidos em salas de correspondência. Estes documentos podiam variar desde declarações de impostos, multas, cartas e faturas de serviço ao cliente. Cada documento tinha de ser encaminhado para o departamento apropriado. Os documentos eram processados manualmente e acabavam por ficar guardados num grande arquivo.
Uma vez que a maioria destas organizações digitalizaram os seus sistemas durante a última década, a quantidade de documentos em papel recebidos tem diminuído a cada ano. Muitas organizações já se mudaram para salas de correspondência, sistemas de gestão de casos e arquivos digitais e recebem a maioria dos documentos por e-mail. Algumas trabalham com grandes scanners, digitalizando a parte restante do processo.
Receber e converter documentos para um formato digital, no entanto, é apenas o primeiro passo para reduzir erros e melhorar a eficiência operacional. Classificar o conteúdo de documentos, organizá-los, encaminhá-los para o departamento certo e garantir que estejam disponíveis em texto, são os próximos passos que podem ser automatizados e implementados na sua configuração de processamento de documentos.
Neste blog, revelaremos como pode obter estes resultados com a nossa solução de classificação de documentos.


O segredo são os algoritmos
A Klippa criou algoritmos de machine learning que são formados por um conjunto de mais de 1 milhão de documentos. Os algoritmos extraem muitas características de documentos, tais como formatos de arquivo, tamanhos de arquivo e layouts.
O software extrai o conteúdo de documentos usando o Reconhecimento Ótico de Caracteres (OCR), e realiza análises de texto e estatísticas através do Processamento de Linguagem Natural (NPL) para determinar grupos de tópicos (topic clusters). Identifica padrões dentro de conjuntos de tipos de documentos que lhe permitem combinar documentos desconhecidos com um desses conjuntos.
Para qualquer documento desconhecido que tenha que ser classificado, as características são extraídas e inseridas nos algoritmos. Um algoritmo é basicamente uma fórmula matemática, portanto, o resultado será uma certa classificação. Chamamos a isto uma classificação de semelhança. Esta classificação é comparada a todas as categorias de documentos do conjunto de dados com os quais o modelo foi treinado. A melhor correspondência entre a classificação do documento e a classificação da categoria é o mais provável candidato à classificação.
O visual abaixo é um exemplo simplificado de um fluxo de classificação de documentos:


É possível obter mais de 99% de precisão utilizando a classificação automatizada de documentos, enquanto uma única ação de classificação demora cerca de 1/10 de segundo. A classificação manual é muito mais lenta, as pessoas levam pelo menos alguns segundos para classificar os documentos. Além da falta de velocidade, as pessoas geralmente não são mais do que 95% precisas, dependendo da complexidade da tarefa.
Portanto, se estivermos a falar de grandes volumes, suponhamos que a classificação de 100.000 documentos por mês, a classificação manual levará 20 vezes mais tempo e resultará em 5% mais erros. Isto custará milhares de euros por mês a uma grande organização, enquanto que um algoritmo custaria apenas uma fração disso.
A classificação funciona para quase todos os tipos de documentos
Qualquer recurso (característica) que uma pessoa possa identificar pode ser classificado através do nosso software. O pré-requisito mais importante é que haja dados suficientes para treinar o modelo para entender as diferenças entre certas características.
Os algoritmos de machine learning, não são muito diferentes dos humanos. Por exemplo, os algoritmos baseiam-se nas diferenças entre, uma fatura e um aviso de pagamento, através da experiência.
Isto é o que o software Klippa pode fazer pela sua empresa:
- Classificação do tipo de ficheiro
- Classificação do tipo de documento
- Classificação do idioma do documento
- Classificação do país de origem
- Classificação do comerciante
- Classificação de itens de linha
- Classificação de risco ou urgência
- Classificação de dados confidenciais
Classificação do tipo de ficheiro
Se não souber os ficheiros que tem no seu e-mail ou arquivo, o primeiro passo é identificar rapidamente cada um dos arquivos que estão armazenados. Poderá considerar os tipos de arquivos como PDFs, documentos Word, ficheiros em Excel, e-mails, imagens, digitalizações ou qualquer outro tipo de arquivo.


Classificação do tipo de documento
Os tipos de documentos podem ser classificados. Por exemplo, é possível classificar faturas, recibos, contratos, cartas de serviço ao cliente, documentos de transporte, pedidos de compra, recibos de entrega, extratos bancários, documentos de identidade, salário e muito mais. A Klippa permite a classificação de mais de 30 tipos diferentes de documentos.
Classificação do idioma do documento
O idioma do documento também pode ser classificado. Cada documento pode ser classificado por ‘inglês’, ‘holandês’, ‘espanhol’ ou qualquer outro idioma. Isto pode ser muito útil caso tenha documentos em vários idiomas e procure por um idioma em particular.
Classificação do país de origem
Alguns documentos, tais como os selos de embarque ou passaportes, têm informações sobre o país de origem. Isto pode ser usado para rotular os documentos para fins de classificação. Considere os selos de países como “Países Baixos”, “Reino Unido” ou os selos de regiões como “Europa”.
Classificação do comerciante
Os comerciantes são importantes no processamento de recibos e faturas. Pode dar-lhe informações sobre o tipo de loja e onde a compra foi feita. As etiquetas de categoria podem ser usadas para classificar o tipo de loja (por exemplo, loja de ferramentas, supermercado, loja de eletrodomésticos ou farmácia).
Classificação de itens de linha
A classificação dos itens de linha (ou seja, compras de produtos) também é uma opção. Com um algoritmo inteligente que aprendeu com a análise de 500.000 recibos e faturas, a Klippa classifica produtos em mais de 20 categorias, tais como ‘Alimentos e bebidas’, ‘Eletrónicos’, ‘Álcool’, ‘Transporte’ e muito mais. Isto pode ser usado para determinar a elegibilidade da declaração de impostos, distribuição de pontos de fidelidade, análise de clientes e muito mais.


Classificação de risco ou urgência
Classificações de risco ou urgência podem ser extremamente importantes ao tentar estabelecer prioridades no apoio ao cliente. Cartas de reclamação ou e-mails de clientes que pretendem iniciar uma ação legal podem ser classificadas como “alta prioridade”, enquanto que uma questão de menos prioridade será classificada como “baixa prioridade”.
Classificação de dados confidenciais
Em determinadas indústrias, é importante identificar e classificar documentos que contenham dados confidenciais devido à GDPR ou outras regulamentações relacionadas com a privacidade. Existem documentos como passaportes, cartões de identidade, cartas de condução, cartões de crédito, contratos, etc. O OCR API da Klippa pode detetar e identificar esses documentos automaticamente. É possível até mesmo torná-los automaticamente anónimos, removendo ou colocando linhas específicas em negrito no documento.


Os benefícios da classificação de documentos
Os benefícios do OCR e da classificação de documentos com base na IA que se aplicam ao seu caso, depende da sua situação. Geralmente, todos os benefícios se resumem a duas vantagens:
- Aumento da eficiência operacional → Aumentar a velocidade de processamento e reduzir o custo de processamento
- Melhoria da conformidade → Reduzir erros e encontrar indicadores de riscos em grandes coleções de dados
Se substituir a classificação manual de documentos por uma solução de classificação digital, poderá reduzir o custo operacional facilmente até 70%.


Próximos passos
Caso a sua empresa tenha algum desafio em relação ao processamento eficiente de documentos, a Klippa está aqui para o ajudar. Temos todo o prazer de aconselhar as melhores práticas, e comprovar as capacidades do nosso software. Abaixo, pode agendar uma demonstração online que poderá ser o próximo passo na sua transformação digital.
Também pode obter mais informações sobre a anonimização de arquivos aqui.