PDF/A: hoe maak je PDF-bestanden doorzoekbaar en AVG-proof?

PDF/A: hoe maak je PDF-bestanden doorzoekbaar en AVG-proof?

Een van de meest gebruikte bestandsformaten is Portable Document Format (PDF), sinds het ontstaan ervan in 1993. Het is een manier om read-only documenten te versturen die de opmaak van een tekst behouden. Hoewel het een van de meest voorkomende documentformaten is, weten veel mensen niet dat er eigenlijk veel verschillende soorten PDF-bestanden zijn, een van de belangrijkste voor lange termijn archivering is PDF/A. De PDF/A-standaard is in 2005 ontstaan en heeft een aantal voordelen ten opzichte van standaard PDF-documenten. In deze blog vertellen we je meer over wat PDF/A is, welke versies er bestaan en wat de voordelen zijn. 

Heb je behoefte om je PDF-documenten doorzoekbaar te maken? En wil je meer weten over PDF/A? Scroll dan rustig naar beneden, wij vertellen je er alles over:

Wat PDF/A inhoudt

Een belangrijk element is dat PDF/A-documenten 100% autonoom zijn. Alle metadata is ingebed in het bestand en dit omvat alle inhoud (tekst, rasterafbeeldingen en vectorgrafieken), lettertypes en informatie over kleuren. Een PDF/A-document kan niet vertrouwen op gegevens uit externe bronnen (lettertype-programma’s en datastromen), maar kan wel hyperlinks bevatten naar externe documenten. PDF/A verbiedt features die ongeschikt zijn voor langdurige archivering, zoals lettertype-koppeling en codering. 

PDF/A komt in veel verschillende vormen door verschillende PDF/A-standaarden en conformiteitsniveaus te combineren. Elke PDF/A-standaard heeft een andere mix van beschikbare functies en beeldcompressie-technologieën die helpen bij het bewaren van de inhoud.  

Welke versies van PDF/A bestaan er?

Het eerste deel van de standaard werd in 2005 gepubliceerd en bestond uit twee niveaus:

PDF/A-1b – Niveau B (basis) conformiteit
PDF/A-1a – Niveau A (toegankelijk) conformiteit
PDF/A-2u – Niveau U (unicode) conformiteit

Niveau B is het minst complexe niveau en wordt vaak gebruikt voor archivering. Niveau A brengt een aantal extra eisen met zich mee die het beter geschikt maken voor slechtzienden en makkelijker doorzoekbaar maken. Het nadeel is dat het niet altijd mogelijk is om een Level A-document van een specifieke bron te maken en het kost meer tijd (het is ingewikkelder) om PDF/A-1a-documenten te maken. Hieronder staan de extra Level A-vereisten:

  • Taalspecificatie
  • Hiërarchische documentstructuur
  • Gemarkeerde text spans en beschrijvende tekst voor afbeeldingen en symbolen

Omdat de technologie snel verbetert, zijn er in de loop der jaren nieuwe versies van PDF/A ontwikkeld. PDF/A-1 is de originele PDF/A-standaard, zowel de meest gebruikte als de meest beperkende. Omdat het gebaseerd is op een oudere PDF-standaard, PDF 1.4, ondersteunt het geen JPEG 2000, bijlagen of lagen. Niveau A-conformiteit was bedoeld om de toegankelijkheid voor fysiek gehandicapte gebruikers te vergroten door ondersteunende software, zoals screen readers, in staat te stellen de inhoud van een bestand beter te interpreteren. 

PDF/A-2
Het tweede deel van de norm is in 2011 gepubliceerd. PDF/A-1-bestanden zijn niet noodzakelijkerwijs hetzelfde als PDF/A-2 en vice versa. Dit deel bevat de volgende nieuwe functies en wordt nu algemeen gebruikt:

  • Digitale handtekeningen
  • JPEG 2000 en JBIG2 beeldcompressie
  • Transparantie-effecten en -lagen
  • Optie om sets van documenten te archiveren in één enkel dossier
  • Inbedding van OpenType-lettertypen
  • Conformiteitsniveau u (Unicode) maakt het mogelijk dat tekst betrouwbaar kan worden doorzocht en gekopieerd, zonder dat het bestand hoeft te voldoen aan andere vereisten op a-niveau.

Level U (Unicode) werd samen met PDF/A-2 geïntroduceerd en biedt character mappings voor Unicode.

PDF/A-3
Deel 3 heeft een nieuwe functie: het laat elk bestandsformaat toe (XML, CSV, CAD, Word, Excel, enz.) als bijlage, maar is nog niet wijdverspreid. 

PDF/A-4
Deel 4 zal naar verwachting ergens dit jaar (2020) worden gepubliceerd.

Wat zijn de voordelen van PDF/A? 

PDF/A heeft veel voordelen ten opzichte van bijvoorbeeld het traditionele PDF-bestandsformaat. Om deze blog niet te lang te maken, zetten we de vijf belangrijkste op een rijtje.

1 – PDF/A-documenten zijn volledig doorzoekbaar: Eindelijk, PDF/A-documenten zijn nu volledig doorzoekbaar! Deze functie voorkomt vele uren aan handmatig werk. De tekst wordt in het document bewaard, zelfs tekst die met optische tekenherkenning (OCR) is geëxtraheerd. Het PDF/A-bestand slaat zowel de geëxtraheerde tekst als de gescande afbeelding op.

2 – PDF/A neemt relatief weinig opslagruimte in beslag: Hoewel PDF/A-documenten meer informatie bevatten dan afbeeldingen (zoals TIFF), zijn de PDF/A-bestanden meestal kleiner door het gebruik van efficiënte compressie-algoritmes.

3 – PDF/A-documenten blijven altijd geldig: Bestaande PDF/A-documenten hoeven niet te worden gemigreerd als wijzigingen worden ingevoerd door het ISO-comité. Ze zullen altijd geldig blijven omdat de ISO de PDF/A-standaard niet kan intrekken. Dit garandeert dat je organisatie een veilig en bruikbaar archief behoudt en dat je geen gegevens verliest. 

4 – Digitale handtekeningen garanderen veiligheid: De combinatie van PDF/A met digitale handtekeningen zorgt ervoor dat PDF-documenten niet tussendoor zijn gewijzigd en dat ze authentiek zijn. Voor langdurige archivering betekent dit optimale juridische zekerheid.

5 – PDF/A zijn algemeen geaccepteerd: In Europa en Azië wordt PDF/A al op grote schaal gebruikt voor lange termijn archivering, door overheden, organisaties en bedrijven. De vraag naar deze standaard groeit in Noord-Amerika in bepaalde branches. De PDF Association is zeer belangrijk voor promotie van PDF/A.

De naleving van de AVG geldt voor EU-bedrijven en bedrijven in Canada en de Verenigde Staten die werken met de persoonsgegevens van EU-burgers. Het betekent in principe dat wanneer je de persoonlijke gegevens van klanten vraagt en opslaat, je hun toestemming moet hebben en de gegevens niet langer dan nodig moet bewaren. Deze gegevens kunnen overal zijn en kunnen al in je archief aanwezig zijn zonder dat je het weet, omdat je archief niet digitaal of niet doorzoekbaar is. Het converteren of creëren van doorzoekbare PDF/A-bestanden is daarom zeer relevant voor het waarborgen van AVG-conforme archieven. Combineer dit met automatische anonimisering of pseudonimisering en je weet zeker dat je de juiste data opslaat. Hoe word je AVG-compliant?

1 – Zet papieren documenten om naar digitale bestanden.
2 – Maak je PDF’s doorzoekbaar (hieronder meer over hoe Klippa je hierbij kan helpen)
3 – Identificeer en anonimiseer alle gevoelige gegevens die je niet mag opslaan
4 – Gebruik het PDF/A-formaat voor veilige lange termijn archivering

Wanneer wordt PDF/A gebruikt?

Hieronder vind je enkele voorbeelden van use cases:

Digitalisering: Verzekeringsmaatschappijen die afscheid willen nemen van geprinte facturen en een digitaal archief willen creëren zodat ze deze snel kunnen doorzoeken wanneer dat nodig is, waardoor de productiviteit wordt verbeterd.

Digitale documenten: Juridische bedrijven die hun documenten willen omzetten naar PDF/A voor archiverings- en compliance-doeleinden.

Doorzoekbaarheid: Door ervoor te zorgen dat je al je documenten en PDF’s converteert naar doorzoekbare PDF’s, gaat bepaalde informatie vinden veel makkelijker en sneller.

Documentatie: Banken die een nieuwe dienst aanbieden kunnen verwijzen naar de voorwaarden van andere diensten, zonder alle tekst te hoeven vervangen.

Samenwerking: Ingenieurs die concepten van een document willen delen en de afgewerkte versie in PDF/A opslaan voor de toegankelijkheid op lange termijn.

E-mail/mail: Zorgverleners die alle communicatie met patiënten automatisch willen archiveren om ze snel te kunnen raadplegen.

Hoe maak je PDF/A en doorzoekbare PDF’s?

Als je één enkel PDF/A-bestand wil maken, kun je dat gewoon met Microsoft Word doen. Het automatisch maken van PDF/A-bestanden op grote schaal is technisch gezien echter  vrij complex. Als je zeer technisch bent en op zoek bent naar een manier om het zelf te doen, bekijk dan de PDF Association. Als je geen technische ervaring hebt, niet veel tijd wil besteden aan het onderzoeken van de werking ervan, of grote hoeveelheden documenten hebt die moeten worden geconverteerd, kunnen wij het proces voor je automatiseren. 

Wij kunnen al je scans, afbeeldingen of PDF’s converteren naar elke versie van PDF/A. Dit kunnen we zelfs met je hele archief. Met onze service kun je je hele database aan bestanden doorzoekbaar maken en veilig opslaan, zonder datacorruptie. Met het traditionele PDF-formaat kun je niet garanderen dat als je het over vijf jaar probeert te openen, het nog steeds werkt. Met de doorzoekbare PDF/A kan dat wel.

Hoe valideer je PDF/A-bestanden?

Don’t judge a book by its cover. Hetzelfde geldt voor PDF-bestanden. Als het moeilijk te zien is aan het document zelf, hoe kun je er dan zeker van zijn dat een PDF/A-bestand daadwerkelijk een PDF/A-bestand is en dat het voldoet aan de standaard? Voor dat doel kunnen PDF/A-validatoren worden gebruikt. Dit zijn (online) tools die controleren of aan alle voorwaarden van de standaard is voldaan. Een goede bron om te valideren is VeraPDF

PDF naar PDF/A conversie als service

Er zijn online tools waarmee je PDF’s kunt converteren naar PDF/A’s, maar je weet nooit waar je gegevens terechtkomen en het vergt veel handmatig werk. Als het slechts één bestand is dat je probeert te verwerken en het bestand is niet privacygevoelig, kan dit een goede optie zijn. Kies in elk ander geval voor een betrouwbare conversiedienst. Met onze eigen OCR-engine halen we gegevens uit gescande documenten en afbeeldingen en converteren ze vervolgens naar PDF/A. Het hele proces is geautomatiseerd en geschikt voor de verwerking van grote hoeveelheden documenten. Klippa biedt dit aan in een SaaS-model, zowel op basis van een abonnement als projectmatig. 

Neem contact op met Klippa

Bij Klippa helpen we organisaties met het slim verwerken van grote hoeveelheden documenten. Als je te maken hebt met data-invoer, documentconversie of gegevensextractie, kun je ons een bericht sturen of een productdemonstratie inplannen. We helpen je graag!

Works with AZEXO page builder