Se você estiver lidando com a extração de datas ou quantidades em faturas, ou procurando por produtos de linha em recibos, a primeira opção disponível online é o Tesseract. Tesseract é uma das primeiras fontes de OCR (reconhecimento ótico de carácter) disponíveis no mercado. O software tem registros desde 1985, quando o desenvolvimento foi iniciado por Hewlett-Packard como uma solução comercial. Em 2005, se tornou um projeto de fonte aberta e desde então, empresas como Google apoiaram seu desenvolvimento.
Nos últimos anos, o desenvolvimento de software tem sido interrompido pelo surgimento de outras alternativas comerciais. Essas alternativas não são de graça, mas se você estiver procurando por uma opção mais madura e que está sempre sendo desenvolvida e aprimorada, que incorpora aprendizado de máquina e requer pouca (ou quase nada) customização, as alternativas ao Tesseract são a solução.
Nós da Klippa providenciamos essa alternativa e solução! Em seguida, vamos explicar porque somos seu parceiro ideal de OCR para faturas, recibos e muitos outros documentos.
Nossa premissa vs nuvem OCR
O Tesseract foi desenvolvido quando a maioria dos funcionários da Klippa não eram nem nascidos ainda. No mundo de TI, ser mais velho geralmente significa que você está desatualizado. Isso só é verdade para o sistema Tesseract. Algumas desvantagens são que você tem que hospedar o sistema e fazer várias customizações para que suas fontes e dados funcionem corretamente. Isso requer capacidade de desenvolvimento e conhecimentos específicos que a maioria das empresas não possuem.
O Tesseract não é uma solução rápida, ele transforma seus documentos em versão raw mas não vai extrair dados de um campo específico. Consequentemente, depois de obter a versão raw, você terá que criar algoritmos de análise para extrair os dados que precisa. Nosso sistema faz tudo isso ao mesmo tempo que se aprimora constantemente.
Hoje em dia, REST APIs dominam o mundo. Processamento de nuvem possuem muito mais vantagens, como flexibilidade e escalabilidade, sem mencionar que também é uma opção muito mais rápida. O sistema OCR API da Klippa é um dos melhores do mercado, baseado em nuvem e gerenciado por Kubernetes, o que garante que nada diminui nossa capacidade de processamento e que nossos usuários sempre recebam respostas rápidas. Nossa solução de nuvem funciona em uma nuvem privada em um local de sua preferência.
Fontes externas = mais dados
O Tesseract é limitado em finalidades porque ele funciona como um pacote individual. Ele executa uma tarefa específica muito bem, mas todos os outros serviços, para que se obtenha resultados satisfatórios, tem de ser criados individualmente. Nós da Klippa criamos a solução para que você possa executar seu trabalho, OCR, extração e validação de dados com qualidade. Nós temos muito orgulho da rapidez que nosso sistema leva para processar documentos, menos de 3 segundos e isso inclui todos os passos mencionados acima!
O processamento de dados dos nossos servidores é rápido, mas com alguns documentos usamos sistemas externos adicionais. Por exemplo, quando encontramos um número de IVA em algum documento, buscamos na base de dados de IVA VIES para determinar o nome e endereço do fornecedor. Quando encontramos o endereço, checamos o API do Google Mapas para confirmar que está correto e que o fornecedor está realmente localizado naquele endereço, além de muitas outras verificações externas que fazemos.
A lista de integrações externas cresce a cada mês, o que ajuda a obter mais informações em documentos em vez de apenas letras e números. Isso significa que a solução OCR da Klippa pode obter informações relacionadas ao documento que não constam no próprio documento, mas podem ser derivadas do mesmo. Isso proporciona uma precisão muito maior e o processo leva apenas alguns segundos.
Os benefícios de machine learning
Dedicamos muito tempo e esforços para configurar modelos de machine learning para permitir que a inteligência artificial nos ajude a melhorar o reconhecimento de faturas e recibos. Esses modelos apoiam a identificar divisões em um documento, por exemplo, cabeçalho, rodapé e informações nos itens de linha. Os modelos também classificam documentos para casos de uso de fragmentos específicos. Também podemos fazer suposições para o processamento, por exemplo, contabilidade robótica ou categoria de recuperação de IVA. Esses modelos também podem prever a categoria de compra de algum produto, o que ajuda a determinar automaticamente as razões de entrada. Em geral, machine learning garante que o sistema se aperfeiçoe constantemente. Chamamos esse processo de “ciclo de feedback Klippa”.
Os benefícios do desenvolvimento contínuo
A maioria dos nossos clientes são desenvolvedores de software como nós. Juntos, trabalhamos para construir a melhor plataforma de contabilidade, o melhor provedor de lealdade, o melhor sistema de RH ou a melhor ferramenta de niche. Nós da Klippa trabalhamos com um time dedicado que faz parceria com seus clientes, mantendo contato direto com o time de tecnologia para aprimorar constantemente nosso sistema de reconhecimento OCR.
No documento abaixo, demonstramos os resultados do sistema OCR Klippa e os resultados do sistema Tesseract. Demonstraremos com um recibo holandês pois nossa empresa está localizada nos Países Baixos.


Comparação entre Tesseract e Klippa
O idioma é algo que você precisa especificar com Tesseract, então o recibo é processado como “holandês”. Com Klippa, você não precisa especificar o idioma porque nós detectamos automaticamente.
Em seguida, um exemplo de OCR que resultou do Tesseract, que levou 3.8 segundos para ser processado. Os resultados são bons mas os mesmos contêm erros. Além do texto raw, os dados não são estruturados pois isso precisa ser feito manualmente.


Agora, o mesmo recibo é processado usando a tecnologia que Klippa oferece. O resultado levou 2.9 segundos para ser processado. Isto já é 25% mais rápido e um texto raw com mais precisão é providenciado.


Ao analisar o texto raw, Klippa providencia um resultado JSON mais organizado. Pense na quantidade de tempo que você poderá salvar dessa forma! Tudo isso porque a análise de dados é feita automaticamente e fontes externas são checadas anteriormente. Com Klippa, você extrai resultados que podem ser usados imediatamente. Veja um exemplo de uma resposta de JSON simplificada:


Esse é apenas um exemplo, mas podemos garantir que todo e qualquer documento que for processado por nosso sistema, vai funcionar melhor que o sistema Tesseract. Então, se você estiver procurando por melhores alternativas ao Tesseract para faturas, recibos e outros documentos, não hesite em entrar em contato e planejar uma demonstração!
Após a demonstração, você terá a oportunidade de testar nosso sistema gratuitamente e experienciar o porque nosso API é a melhor opção!