Extração e armazenamento de dados com o sistema OCR

Extração e armazenamento de dados com o sistema OCR

Imprimir documentos para guardá-los em caixas ou pastas é algo que faz parte do nosso dia a dia por muitos anos. Contratos, faturas, tickets, currículos e muitos outros documentos tem sido impressos em grande volume nos últimos 20 anos. Porém, com a popularização de novos softwares de armazenamento, ficou muito mais fácil guardar informações digitalmente. Nos últimos 5 anos, a solução de armazenar informações em Cloud como Dropbox e Google Drive tornou esse processo mais conveniente. Começamos a mudar a maneira que armazenamos informações para um dia se tornem totalmente digitais. Porém, já que muitas informações ainda existem em papéis, o campo de extração de dados foi criado. Mas o que é isso? Como isso funciona, e como a Klippa pode te ajudar com a extração de dados de documentos? 

O que é a extração de dados de documentos?

É uma tecnologia que permite que informações de documentos físicos sejam extraídas e armazenadas em um formato estruturado, baseado no escaneamento ou na foto feita com seu smartphone. Mas o que é um formato de dados estruturado? O formato de dados estruturados é um formato consistente e fácil de entender que ajuda computadores compreender e comunicar dados. Em vez de grandes arquivos de texto, ele é dividido e marcado com identificadores para separar as informações importantes. Um pouco semelhante a marcar partes de um texto impresso usando um marca-texto para criar facilidades em encontrar as informações necessárias. Esses identificadores são convertidos para CSV, JSON, XLSX, ou XML. Abaixo você pode ver um exemplo do formato JSON. 

[{

“Comerciante”: “Nelson”,

“Data”: “20-01-2019”,

“Quantidade”: “20”,

“Moeda”: “EUR”

]}

Como funciona a extração de dados de documentos?

A extração de dados em documentos físicos é feita em alguns passos. O primeiro passo é converter o documento de papel para um documento digital como por exemplo PDF ou JPG. Isso é normalmente feito com uma máquina de escanear ou a câmera do seu celular. Uma vez que o documento é digital, você possui a imagem deste documento, mas nessa fase o seu computador ainda não é capaz de identificar a informação que consta na imagem. Para um computador, isso é somente uma imagem, não um texto. Abaixo, usaremos a imagem de um recibo para demonstrar os próximos passos. Mas isso também poderia ser uma fatura, contrato, passaporte, e muito mais.

Demo receipt

Para converter essa foto em texto, a tecnologia OCR é usada. OCR significa Reconhecimento de Carácter Óptico. Essa tecnologia converte a foto de um documento para um arquivo de texto estruturado. A qualidade da foto, iluminação e distância do documento durante a foto ou escaneamento influenciam o resultado e precisão da conversão.

Depois da conversão OCR, temos um documento de texto que, para um computador, ainda não é compreensível. Além do mais, só algumas informações do documento são relevantes. Pense na quantidade total de uma fatura ou as assinaturas e datas em um contrato. O próximo passo é usar um sistema de parsing que pode ler o texto, identificar as informações importantes e extrair as informações certas para guardar no banco de dados. Do banco de dados, as informações podem ser facilmente convertidas no seu formato de dados preferido. Na imagem abaixo, você pode ver como o sistema separa as informações importantes antes da extração. 

This image has an empty alt attribute; its file name is data-extraction-receipt-1024x482.png

Esse é o processo de extração de informações de um recibo. Klippa é uma empresa especializada neste tipo de software. Nós providenciamos OCR APIs flexíveis para extrair dados de qualquer tipo de documentos que você queira. A entrada pode ser feita com vários tipos de documentos, como por exemplo: TXT, JPG, PNG, PDF. A saída do OCR API também é muito flexível. Nós preferimos comunicar via JSON, mas outros também são possíveis como: XML, CSV ou XLSX. Com uma chave-API, isso pode ser super funcional para você e sua empresa!

Vamos falar sobre o seu caso especifico

Nós amamos trabalhar com casos diferentes de extração de dados de documentos. Nós desenvolvemos projetos para empresas ao redor do mundo em mais de 10 idiomas diferentes, com todo o tipo de arquivo que você possa imaginar. Se você possuir algum desafio interessante para nós ou gostaria de adquirir uma chave-API para testar nosso produto, entre em contato conosco!

Works with AZEXO page builder