Line Item Erkennung und Extraktion auf Belegen

Line Item Erkennung und Extraktion auf Belegen

Unternehmen auf der ganzen Welt arbeiten mit Belegen. In einigen Fällen für Garantie Leistungen und in anderen Fällen für administrative Zwecke. In den letzten Jahren haben sich Belege auch als wertvolle Datenquelle für Treueprogramme und Data Analytics Firmen herausgestellt. Immer mehr Unternehmen in diesen Bereichen wenden sich an uns mit der Frage, ob unsere OCR-Technologie auch Line Items extrahieren kann. Die Antwort lautet glücklicherweise ja! In diesem Blog werden wir einige weitere Informationen darüber geben, wie wir Line Items aus Belegen extrahieren.

Was sind also Line Items (Einzelposten) auf Belegen?

Die Klippa OCR Software kann jedes Bild in ein strukturiertes Textdokument verwandeln, das für die Datenanalyse verwendet werden kann. Für administrative Aufgaben sind in der Regel der Händler, Datum, Beträge und Mehrwertsteuer relevant. Für Treueprogramme und Data Analytics Firmen ist es viel relevanter zu wissen, welche Produkte gekauft werden, in welchen Produktkombinationen und zu welchen Preisen. Wenn wir über die Datenextraktion von Line Items sprechen, sprechen wir über diese Art von Informationen. Es sind Informationen über das Brot, das jemand für 1,00 € im Supermarkt gekauft hat, kombiniert mit den zwei Litern Milch, die jeweils 1,50 € kosten.

Und wie funktioniert das?

Die Durchführung von Text Mining auf Belegpositionen ist ein schrittweiser Prozess. Sobald ein Bild eines Belegs eintrifft, wird es von mehreren Klippa-Systemen verarbeitet. Zuerst versuchen wir, die Qualität der Belege anhand von Beleuchtung, Größe und Auflösung zu bestimmen. Wenn das Dokument die richtige Qualität hat, wird es dann mittels OCR in eine Rohtextdatei umgewandelt. Diese Textdatei ist völlig unstrukturiert und kann mit einer schriftlichen Notiz verglichen werden. Zu diesem Zeitpunkt ist es für einen Computer noch schwer zu verstehen, was die einzelnen Line Items sind und was die anderen Informationen sind. Der nächste Schritt ist unser Belegklassifizierungsalgorithmus auf der Basis von KI. Dieses System ermittelt anhand des Beleginhalts, ob es sich tatsächlich um einen Beleg oder vielleicht um eine Rechnung oder einen Einzahlungsschein handelt. Die Belegart ist für die letzten Verarbeitungsschritte relevant. In diesem letzten Schritt wandeln wir den gesamten Rohtext mit unserer intelligenten Software in strukturierte Informationen um. Wir beschriften jeden Text im Dokument mit einem Etikett, das dem Text Bedeutung verleiht. Sobald wir alle Informationen beschriftet haben, können diese per XML, JSON oder CSV ausgetauscht werden. Der Händlername, Datum, Zeit, Beträge, Mehrwertsteuern, Line Items (Einzelposten) und mehr werden alle separat beschriftet. Mit diesen 4 Schritten haben wir ein Bild eines Dokuments in strukturierte Daten umgewandelt. Im Bild unten sehen Sie 3 der 4 Schritte:

Für welche Belege funktioniert die Klippa OCR?

Gute Frage! Es gibt mehrere Möglichkeiten, einzelne Positionen aus den Belegen zu extrahieren. Die eine ist eine templatebasierte Lösung und die andere eine universelle Lösung. Das Arbeiten mit Templates bedeutet, dass Sie für jede Art von Belegen, die Sie analysieren möchten, einen festen Parser erstellen müssen. Der Vorteil hierbei ist, dass die Qualität sehr gut sein kann, wenn Sie nur einen oder nur wenige verschiedene Händler in Ihrer “Beleg” Sammlung haben. Problematisch wird es wenn Sie mit vielen verschiedenen Händlern in Ihrem System arbeiten. Da fast jeder Shop ein individuelle Beleg Format verwendet, kann das Arbeiten mit Vorlagen sehr zeitaufwendig werden. Aus dem Grund arbeiten wir bei Klippa arbeiten lieber mit einer universellen Lösung, die auf Machine Learning basiert. Die Genauigkeit liegt bei 95%, weit über dem Marktdurchschnitt. Unsere Universallösung kann jede Art von Belegen in Europa innerhalb von 2-5 Sekunden verarbeiten. Vom Supermarkt bis zum Elektronikgeschäft! Je nach Anwendungsfall finden wir immer die optimale Lösung.

Wenn Sie an der Implementierung unserer OCR-API oder unseres Kamera-SDKs für OCR und Datenextraktion interessiert sind, können Sie sich jederzeit an uns wenden. Haben Sie ein anderes OCR- oder Machine Learning Problem, das Sie gerne gelöst haben möchten? Fordern Sie uns heraus und vereinbaren Sie eine OCR Demo mit uns!

Works with AZEXO page builder