Empresas de todo el mundo trabajan con recibos. En algunos casos por garantía y en otros casos por razones administrativas. En los últimos años, los recibos se han identificado como una valiosa fuente de datos para las empresas de fidelización y análisis de datos. Cada vez más empresas en estas áreas se ponen en contacto con nosotros para preguntarnos si nuestra tecnología OCR puede extraer datos de los elementos de los recibos. ¡La respuesta, afortunadamente, es sí! En este blog daremos más información sobre cómo extraemos los datos de las partidas de los recibos.
¿Qué son las partidas en los recibos?
El software OCR de Klippa puede convertir cualquier imagen en un documento de texto estructurado que se puede utilizar para el análisis de datos. Para tareas administrativas el comerciante, las fechas, los importes y los valores del IVA suelen ser relevantes. Para las empresas de datos y de fidelización es mucho más importante saber qué productos se compran, en qué combinaciones de productos y a qué precios. Cuando hablamos de extracción de datos en partidas individuales de recibos, estamos hablando de este tipo de información. Es información sobre el pan que alguien compró por 1€ en el supermercado además de los dos cartones de leche que cuestan 1,5€ cada uno.
Y, ¿cómo funciona?
Realizar minería de texto en las partidas individuales de recibos es un proceso paso a paso. Tan pronto como llega una imagen de un recibo, éste es procesado por múltiples sistemas Klippa. En primer lugar, tratamos de determinar la calidad del documento basándonos en la iluminación, el tamaño y la resolución. Si el documento tiene la calidad adecuada, se convierte en un archivo de texto sin procesar mediante OCR. Este archivo de texto está completamente desestructurado y puede compararse con el texto de un bloc de notas. En esta fase, todavía es difícil para un ordenador entender cuáles son las partidas y cuál es otra información. El siguiente paso es nuestro algoritmo de clasificación de documentos basado en la IA. Este sistema determina, en función del contenido del recibo, si se trata realmente de un recibo o quizás de un recibo de pago o de una factura. La clase de documento es relevante para los últimas fases de procesamiento. En este último paso convertimos todo el texto sin procesar en información estructurada con nuestro software inteligente. Etiquetamos cada trozo de texto en el documento dando significado al texto. Tan pronto como hemos etiquetado toda la información, ahora se puede compartir usando XML, JSON o CSV. El nombre del comerciante, las fechas, las horas, los importes, los valores del IVA, los artículos de línea y mucho más se etiquetan por separado. Utilizando estos 4 pasos hemos convertido una imagen de un documento en datos estructurados, listos para el análisis de datos y la fidelización. En la imagen de abajo puedes ver 3 de los 4 pasos:
¿Para qué recibos funciona Klippa OCR?
¡Buena pregunta! Existen varias maneras de extraer datos de partidas individuales de los recibos. Una manera es una solución basada en plantillas y la otra es una solución universal. Trabajar con plantillas significa que tienes que construir un analizador fijo para cada tipo de recibo que desees analizar. La ventaja es que la calidad puede ser muy buena si sólo tienes uno o unos pocos comerciantes en su conjunto de documentos. El problema ocurre cuando trabajas con muchos comerciantes diferentes. Debido a que casi todas las tiendas utilizan su propio diseño de recibos, trabajar con plantillas puede llevar mucho tiempo. En Klippa normalmente preferimos trabajar con una solución universal basada en el aprendizaje automático. La precisión se sitúa en torno al 95%, muy por encima de la media del mercado. Nuestra solución universal puede procesar cualquier tipo de recibo en Europa en 2 segundos. ¡De las tiendas de comestibles a las tiendas de electrónica! Dependiendo de su caso de uso, siempre encontraremos la mejor solución.
Si estás interesado en implementar nuestra API de OCR o cámara SDK para OCR y extracción de datos, siempre puedes ponerte en contacto con nosotros. ¿Tienes algún otro problema de OCR o de aprendizaje de la máquina que le gustaría resolver? ¡Contáctanos!