Product- en prijsgegevens verzamelen door het scannen van supermarktbonnen met OCR & Machine Learning

Product- en prijsgegevens verzamelen door het scannen van supermarktbonnen met OCR & Machine Learning

Product- en prijsgegevens verzamelen uit kassabonnen van de supermarkt kan een uitdaging zijn. Het vergaren van nauwkeurige gegevens uit een grote hoeveelheid bonnetjes vereist tijd, precisie en natuurlijk de bereidheid van talrijke klanten die hun kassabonnen ook nog eens moeten insturen. Eenmaal verzameld, heb je een leger aan collega’s nodig om de scans te verwerken tot bruikbare gegevens. Misschien overweeg je wel back-office outsourcing of crowdsourcing, zoals Amazon’s Mechanical Turk, om dit vervelende werk af te maken. Helaas, hoe uitgebreid je de mensen ook instrueert, ze zullen altijd de nauwkeurigheid en betrouwbaarheid van een computer ontberen. Zoals het gezegde luidt: onze fouten zijn wat ons menselijk maakt. Naast de nauwkeurigheid zijn ook verwerkingskosten en doorlooptijd van belang, waarin de computer het ook vaak van de mens wint. De vraag is dus: hoe kun je de software de hele declaratieverwerking laten overnemen? Klippa heeft hiervoor een slimme oplossing voor.

Ga naar:

Wat is het scannen van supermarktbonnetjes en wat is het doel ervan?
Hoe werkt OCR op de kassabonnen?
Welke data kun je uit supermarktbonnetjes halen?
Productdata
Productclassificatie
Locatie en gegevens verkoper
Pricing data
Het opsporen van verschillende soorten fraude
Duplicaten van bonnetjes
Photoshop-manipulaties
Nepkassabonnen
What can you do with supermarket receipt scanning?
Kassabonnen scannen voor Market Basket analyse
Kassabonnen scannen voor geografische prijsanalyse
Kassabonnen scannen voor cashback- en loyalty-campagnes
Veelgestelde vragen
Maak kennis met Klippa

Wat is het scannen van supermarktbonnetjes en wat is het doel ervan?

Het scannen van supermarktbonnen is het uitlezen van bonnen met behulp van OCR, het identificeren van alle relevante datavelden en het omzetten van tekst in een bruikbaar gestructureerde output. Met de Klippa API wordt dit proces volledig geautomatiseerd. Zonder enige moeite heb je enorme hoeveelheden data binnen handbereik. Je kunt deze data gebruiken om productonderzoek te doen, productverbeteringen door te voeren, koopgedrag te analyseren, prijsstrategieën te onderzoeken, marketingcampagnes op te zetten en nog veel meer. 

Hoe werkt OCR op de kassabonnen?

Je mag dan wel weten dat je een foto naar de API stuurt die welke gestructureerde data eruit laat rollen, maar wat gebeurt er eigenlijk tussen de input en output? De API is als een ober die je bestelling opneemt, naar de keuken gaat waar de bestelling wordt verwerkt en het eten terugbrengt naar je tafel. Hieronder volgt een vereenvoudigd overzicht van de stappen die de API daadwerkelijk neemt:

  1. De klant uploadt met èèn klik een foto van een kassabon.
  2. De API scant de foto. 
  3. De afbeelding wordt gecorrigeerd door een AI met behulp van een engine die wazigheid en reflectie detecteert. De foto wordt hierdoor leesbaar.
  4. Met behulp van optische tekenherkenning (OCR) software wordt de tekst gelezen en geëxtraheerd naar een TXT-document. 
  5. Door middel van machine learning worden belangrijke datapunten en -categorieën automatisch geïdentificeerd. Deze gegevens worden vervolgens omgezet in een JSON-output.
  6. De API presenteert binnen enkele seconden het JSON-databestand. De data staat nu voor je klaar.

Dus wie is de kok die in de keuken je maaltijd staat te bereiden? In dit geval is de kok een artificial intelligence (AI), getraind met tal van voorbeeldbonnen, -tickets, -facturen en andere vormen van documenten. De AI leert te bepalen wat de eigenschappen van een dataveld zijn, bijvoorbeeld of een dataveld een productlijn, prijs, adres of iets anders is. Na intensieve training is deze AI uitgegroeid tot een zeer bedreven chefkok, omdat hij zijn vermogen om specifieke data automatisch te detecteren heeft geperfectioneerd. Deze vorm van machine learning heeft ervoor gezorgd dat de engine een precisie van >95% heeft met een capaciteit om enorme volumes te verwerken. De AI schiet zelden mis en produceert het JSON-bestand automatisch binnen enkele seconden. Hierdoor kan de API een perfect gerecht opdienen.

Welke data kun je uit supermarktbonnetjes halen?

In essentie zijn alle gegevens die op een kassabon staan, uit te lezen en aan te passen aan jouw specifieke behoeften. Hieronder vind je een kort overzicht van datapunten die allemaal gecombineerd kunnen worden tot een complete dataset voor grondige onderzoeksdoeleinden.

Productdata

De producten op een kassabon bestaan niet alleen uit productnamen. Het kan elke vorm van contextuele informatie bevatten zoals beschrijvingen, merken, ingrediënten of zelfs het land van herkomst. Deze artikelbeschrijvingen gaan meestal samen met datapunten zoals hoeveelheid of totaal bedrag.

Productclassificatie

De producten kunnen worden onderverdeeld in bepaalde classificaties, zoals eten en drinken (groenten, snacks, zuivelproducten, frisdrank, sap, etc.), maar ook elektronica, schoonmaak, persoonlijke verzorging, kleding, enzovoort. Op basis van de gemaakte keuze kunnen deze classificaties worden verdeeld op basis van voedingswaarden of specifieke ingrediënten.

Locatie en gegevens verkoper

De naam, het adres, de website en andere contactgegevens van de winkelier zijn uit de kassabon te ontwaren. Dit geeft inzicht in de locatie en de winkelmerken die op de kassabon staan. 

Pricing data

De productprijs, de totale prijs, de BTW-bedragen en -percentages en valuta maken allemaal deel uit van de pricing dataset die uit een kassabon kan worden gehaald. Alle gegevens met betrekking tot de prijsstelling zijn doorgaans substantieel voor je onderzoeksdoeleinden.

Het opsporen van verschillende soorten fraude

Ook fraudedetectie is een significant onderdeel van de supermarktbon-scan, vooral wanneer deze functionaliteit wordt gebruikt in marketing en loyalty-programma’s. Fraudeurs kunnen heel creatief zijn als het gaat om het manipuleren van bonnen. Gelukkig kan de API van Klippa dergelijke gevallen van fraude automatisch opsporen. Fraudedetectie kan op verzoek worden gespecificeerd naar jouw wensen. Hieronder vind je drie voorbeelden van het soort fraude dat Klippa kan detecteren:

Duplicaten van bonnetjes

De API is in staat om te bepalen de kassabon in het verleden al is ingevoerd. Fraudeurs willen het systeem voor de gek te houden door meerdere beloningen met één bonnetje aan te vragen (bijvoorbeeld over meerdere accounts). Dit gebeurt echter ook vaak per ongeluk. Het systeem is in staat om een dergelijke invoer te detecteren door middel van afbeelding- en data-hashing, waarbij overlappende informatie tussen verschillende invoeren wordt geïdentificeerd. 

Photoshop-manipulaties

Tegenwoordig is het niet zo moeilijk meer om een foto te manipuleren met programma’s als Adobe Photoshop. Dit maakt het eenvoudiger voor fraudeurs om de productregels op een bon te vervangen of bijvoorbeeld de prijs, de datum of het tijdstip van de aankoop te wijzigen. Klippa’s API is in staat om inconsistente pixelstructuren te detecteren en zal een ‘gefotoshopt’ beeld herkennen.

Nepkassabonnen

Het is mogelijk dat iemand met kwade bedoelingen zelf een kassabon fabriceert, op basis van een bestaand bonnetje reconstrueert. Ongeacht de kwaliteit van de fabricatie is de API in staat om informatie op een bonnetje, zoals adressen, KvK-nummer, telefoonnummers en nog veel meer, te controleren op basis van een database middels een cross-reference. Elke fout die een fraudeur maakt kan worden opgespoord.

Wat kunt u doen met het scannen van de kassabonnen van de supermarkt?

Zodra de gegevens uitrollen, zijn er tal van mogelijkheden om de gegevens toe te passen op jouw behoeften. Hieronder vind je voorbeelden van use cases:

Kassabonnen scannen voor Market Basket analyse

Om uw klantgedrag te begrijpen, zal een van je taken zijn om een Market Basket analyse uit te voeren. Om alle productdata te verzamelen die je nodig hebt voor een nauwkeurige analyse, zet je een campagne op met een voorwaarde waarin je klanten vraagt hun demografische informatie te verstrekken en een foto van de kassabon the uploaden. Deze foto’s zullen vervolgens moeten worden omgezet naar bruikbare en nauwkeurige data, zoals producttypes, merken of andere productgegevens. Elke foto die een klant uploadt wordt automatisch gescand en omgezet in gesegmenteerde tekst. Dit TXT-bestand wordt vervolgens verwerkt tot een gestructureerd format (JSON), die je de mogelijkheid biedt om een effectieve data-analyse uit te voeren. Je kunt patronen in koopgedrag ontdekken, zoals producten die vaak samen worden gekocht. Een grote retailer zou dan in staat zijn om promoties en marketingcampagnes op te zetten om de verkoop te verhogen. 

Kassabonnen scannen voor geografische prijsanalyse

Om de prijsstrategie van je bedrijf te bepalen, moet je de prijzen van concurrenten in de regio analyseren. Je kunt bijvoorbeeld de prijzen van concurrenten in je buurt of provincie analyseren en bepalen welke pricing het beste past bij jouw merk. Zo kun je beter klanten naar je bedrijf trekken. Je verzamelt kassabonnen van klanten en verwerkt deze via de Klippa API. De API kan automatisch alle velden op de kassabon uit te lezen en extraheren, inclusief productnaam, prijsstelling, BTW en gegevens van verkoper. Deze elementen samen stellen je in staat om de laagste- en hoogste prijs te bepalen die voor een specifiek product in je omgeving wordt gevraagd. De keuze voor een API, in tegenstelling tot outsourcing en crowdsourcing, zal je belonen met een proces dat sneller, nauwkeuriger en goedkoper is.

Kassabonnen scannen voor cashback- en loyalty-campagnes

Het scannen van supermarktbonnen is ideaal voor geautomatiseerde cashbackverwerking of een spaarpuntensysteem in loyalty-campagnes. Je kunt een campagne opzetten om de exposure van een nieuw product aan klanten te verbeteren en de directe verkoop te verhogen. Klanten zullen een kassabon met het product dat deel uitmaakt van de marketingcampagne uploaden om cashback te ontvangen. Wanneer je deze foto’s in de duizenden of zelfs miljoenen ontvangt, heb je een snelle en nauwkeurige manier nodig om deze te verwerken, zodat klanten de cashback snel zullen ontvangen. De API maakt gebruik van OCR om de productregels uit te lezen en deze te extraheren naar een JSON-format, zodat je de producten van de campagne automatisch kunt detecteren en de clearing van betaling in gang kunt zetten. Dit alles met een snelheid en betrouwbaarheid die je klanten tevreden zal stellen.

Veelgestelde vragen

Welke datavelden bevat een supermarktbonnetje?

Hieronder vind je de standaard datavelden die geëxtraheerd worden. Deze kunnen voor elke klant gepersonaliseerd worden. Niet-genoemde velden kunnen op verzoek worden geëxtraheerd.

  • Documenttype
  • Afbeeldingskwaliteit
  • Land van uitgave
  • Taal op de bon
  • Naam verkoper
  • Adresgegevens verkoper
  • Contactgegevens verkoper
  • Website verkoper
  • Betaalmethode
  • Kaartnummer
  • Hoeveelheid wisselgeld
  • Datum van uitgave
  • Totaalbedrag en valuta
  • BTW-bedragen
  • BTW-percentages
  • Productregels, beschrijvingen, hoeveelheid, prijs en categorie
  • Bonnummer
  • KvK-nummer
  • BTW number
  • En vele andere velden

Werkt het op foto’s met lage kwaliteit?

Onze API bevat pre-processing mogelijkheden die de slechte kwaliteit van de beelden zullen verbeteren en roteren voor een betere verwerking. Daarnaast biedt Klippa een camera SDK (software development kit) aan die in mobiele apps kan worden geïmplementeerd. Deze SDK bevat beeld bewerkingsmogelijkheden zoals perspectiefcorrectie, detectie wazigheid en reflectie om de inhoud van foto’s te verduidelijken. Op deze manier ontvang je alleen foto’s die geldige informatie bevatten voor verdere verwerking. Doordat aan de klantzijde al wordt aangegeven of een foto onduidelijk is of onvoldoende belichting heeft, zul je geen onbruikbare foto’s ontvangen.

Hoe accuraat is de OCR API?

Supermarktbonnen kunnen worden gescand en data kan worden geëxtraheerd met een precisie van >95%. Dit betekent dat de AI zelden een regel op een bonnetje verkeerd zal interpreteren. Je kunt er dus gerust van uitgaan dat de AI kassabonnen nauwkeurig zal verwerken. Als je bepaalde verbeteringsmogelijkheden ziet, kunnen we onze modellen op maat trainen om jouw use case te ondersteunen en de beste waarde voor jouw bedrijf te bieden. 

Werkt het met alle producten?

Er kunnen veel verschillende producten op het bonnetje van een supermarkt staan. Niet alleen de simpele boodschap, maar ook een elektrische tandenborstel of een koekenpan. Ongeacht het type product kan Klippa elke productregel op een kassabon identificeren met behulp van OCR en machine learning. Het zal ook in staat zijn om productcategorieën zoals eten & drinken, persoonlijke verzorging, schoonmaak, kleding, elektronica en nog veel meer te herkennen.

Hoe zit het met privacy en GDPR?

Net als alle andere diensten die Klippa aanbiedt, is het scannen van de supermarktbonnen volledig veilig en voldoet het aan de GDPR. We gebruiken binnen de Europese Unie ISO-gecertificeerde servers voor de verwerking van kassabonnen. Is je bedrijf buiten de EU gevestigd? Dan kunnen wij zeer snel een aangepaste server in jouw regio opzetten. Een overeenkomst voor de gegevensverwerking is dan reeds geregeld. Wij slaan geen gegevens op na verwerking.

In welke landen kan je het gebruiken?

Klippa’s OCR API werkt het best op westerse talen. De talen waar we voornamelijk mee werken zijn Engels, Nederlands, Duits, Frans, Spaans, Portugees, Zweeds, Noors, Deens, Fins en Italiaans. Elke andere taal kan op verzoek worden ondersteund. We kunnen voor elke taal onder de zon machine learning toepassen.

Maak kennis met Klippa

Bij Klippa helpen we je graag met al je behoeften voor documentverwerking. Als je een uitdaging hebt met betrekking tot het verwerken van kassabonnen of andere documenten, stuur ons dan een bericht of plan een online demonstratie met een van onze experts hieronder.

 Schedule a free online demonstration

A clear overview of Klippa in only 30 minutes.

Works with AZEXO page builder