Como usar OCR para processar itens de linha em recibos

Como usar OCR para processar itens de linha em recibos

Atualmente, empresas no mundo inteiro estão trabalhando com recibos. Em alguns casos por garantia e em outros por processos administrativos. Nos últimos anos, recibos também foram identificados como fontes valiosas de dados para empresas que tem como objetivo lealdade do consumidor e análise de dados. Cada vez mais, empresas nessas áreas se conectam conosco para garantir se a nossa tecnologia OCR pode extrair dados de itens de linha em recibos. Felizmente, a resposta é sim! Neste blog, te explicamos como extrair item de linha de recibos.

O que são itens de linha nos recibos? 

O software de OCR do Klippa pode transformar qualquer imagem em um documento de texto estruturado que pode ser usado para a análise de dados. Para tarefas administrativas, dados como comerciante, data, quantidade e valor de IVA são normalmente relevantes. Para empresas de lealdade de consumidor e dados, é muito mais relevante saber quais produtos foram comprados, em que combinação e por quais preços. Quando falamos sobre a extração de dados dos itens de linha nos recibos, isso é o que nos referimos. É informação sobre, por exemplo, o pão que alguém comprou por 1 euro na padaria, com duas garrafas de leite que custam 1.50 euro cada. 

Como funciona?

Extrair todas as informações dos itens de linha dos recibos é um processo que precisa ser feito passo a passo. Assim que a foto de um recibo chega, ela é processada por vários sistemas do Klippa. Primeiramente, nós tentamos determinar a qualidade do documento baseado na iluminação, tamanho e resolução. Se o documento for de boa qualidade, ele é então convertido para um arquivo de texto usando o sistema OCR. Esse arquivo de texto é completamente desestruturado e pode ser comparado a um texto que foi escrito em um caderno. A este ponto ainda é difícil para um computador diferenciar o que são os itens de linha e o que são o resto das informações . O próximo passo é o nosso algoritmo de classificação de documentos baseado na AI (inteligencia artificial). Esse sistema, baseado no conteúdo do recibo, determina se realmente é um recibo ou talvez uma fatura ou boleto de pagamento.

O tipo de documento é relevante para os últimos passos do processo. No último passo, nós convertemos todos os textos em informações estruturadas com o nosso software inteligente. Nós etiquetamos todos os pedaços de texto do documento dando significado a eles. Assim que etiquetamos todas as informações, elas podem ser compartilhadas usando XML, JSON ou CSV. O nome do comerciante, data, hora, quantidade, valor de IVA, itens de linha etc., são então etiquetados separadamente. Usando esses 4 passos, convertemos a foto de um documento para dados estruturados, preparados para a análise de dados e usos de lealdade. No exemplo abaixo, você pode ver 3 de 4 passos.

Reading receipt line items with OCR

Que tipos de recibos funcionam para o OCR Klippa?

Boa pergunta! Existem inúmeras maneiras de extrair dados de itens de linha de recibos. Uma solução é baseada em modelos e a outra é uma solução universal. Trabalhar com modelos significa que você tem que construir um analisador fixo para todo o tipo de recibo que você gostaria de analisar. O benefício aqui é que a qualidade pode ser muito boa se você só tiver um ou poucos comerciantes diferentes no seu conjunto de documentos. O problema é quando você trabalha com muitos comerciantes diferentes no seu sistema. Já que quase todas as lojas usam uma estrutura diferente para seus recibos, trabalhar com modelos pode tomar muito tempo. Nós da Klippa, normalmente preferimos trabalhar com uma solução universal baseada no aprendizado da máquina (machine learning). A precisão deste processo está acima de 95%, bem acima do padrão do mercado. A nossa solução universal pode processar qualquer tipo de recibo na Europa dentro de 2 segundos. De mercados até lojas de eletrônicos! Dependendo do seu caso, nós sempre iremos achar a melhor solução para você. 

Se você está interessado em implementar o nosso OCR API ou câmera SDK para OCR e extração de dados, você sempre pode entrar em contato conosco. Você tem alguma dúvida sobre OCR ou Machine Learning que você gostaria de solucionar? Nos desafie!

Works with AZEXO page builder