Was ist PDF/A und wann empfiehlt es sich für gescannte Dokumente?

Auch im Jahr 2018 drucken vielen Unternehmen immer noch täglich zahlreiche Unterlagen aus. Insbesondere in Deutschland hinken sowohl öffentliche Verwaltung als auch viele Betriebe bei der Digitalisierung ihrer Geschäftsprozesse hinterher. In solchen Fällen produzieren Unternehmen dann zwar oft weiterhin Papierdokumente. Allerdings gehen die meisten mittleren und großen Firmen zumindest am Ende des Dokumentlebenszyklus einen sinnvollen Weg: sie scannen die Papierbelege ein – oder lassen diese Aufgabe einen Dienstleister wie DOCUBYTE erledigen.

Bei diesem Unterfangen stellen sich viele unserer Kunden die Frage: in welchem Format soll ich die gescannten Dateien eigentlich speichern? In nachfolgendem Artikel beantworten wir diese Frage und geben Empfehlungen in Bezug auf das PDF/A Format beim Scannen von Dokumenten.

Was ist PDF/A und für welchen Zweck wurde es entwickelt?

1993 hat Adobe Systems  das Portable Document Format eingeführt. Mittlerweile ist PDF weltweit als Dateiformat für den Austausch und die Ablage von elektronischen Dokumenten im Einsatz.

PDF/A hingegen exisitiert erst seit September 2005. Es handelt sich dabei um eine Unterart von PDF, welche die Norm ISO 19005 genauer beschreibt. Das Dateiformat wurde speziell für die Langzeitarchivierung digitaler Dokumente entwickelt. Der Buchstabe „A“ in der Bezeichnung steht für „Archiv“. Mit dem global akzeptierten Standard wird also sichergestellt, dass PDF-Dokumente auch nach Jahrzehnten noch ohne Probleme lesbar und damit auch in ferner Zukunft verwendbar sind.

Man unterscheidet die Konformitätsstufen Level A und Level B:

Level A bezieht neben der visuellen Reproduzierbarkeit auch den Inhalt – also Text und Struktur eines Dokuments – mit ein und stellt deshalb wesentlich höhere Anforderungen. Alle Ressourcen zur Darstellung müssen enthalten sein.

Level B hingegen ist für das Einscannen von Papierdokumenten das entscheidende Format. Denn hier wird lediglich die visuelle Reproduzierbarkeit eines Dokuments geregelt. Es erfüllt also sozusagen nur die Mindestanforderungen. Im Fall eines gescannten Dokuments geht es also um das in den PDF-Container eingebettete Rasterimage.

Achivierungsformate im Vergleich: PDF/A, PDF und TIFF

Achivierungsformate im Vergleich: PDF/A, PDF und TIFF

Wir verzichten an dieser Stelle auf die Darstellung von Level U („U“ steht für Unicode). Es wurde 2011 im Zuge des PDF/A-2 Standards zusätzlich eingeführt und regelt Funktionen für die Barrierefreiheit. Im folgenden Text gehen wir nur auf Level B näher ein, da für Dokumentenscans nur diese Variante in Frage kommt.

Erweiterungen des PDF/A Formats

In der Zwischenzeit wurde der Standard zweimal überarbeitet und damit einhergehend erweitert. Grund dafür ist, dass die im Jahr 2005 festgelegte Definition auf der PDF-Version 1.4 basiert. Bereits wenige Jahre später hat Adobe diverse Neuerungen für normale PDF-Dokumente eingeführt. Diese praktischen Erweiterungen wollten viele Anwender folglich auch für PDF/A zur Verfügung haben.

PDF/A-1b (2005)

  • Basiert auf PDF Version 1.4
  • Zeichensätze sind nach Unicode ins Dokument eingebettet
  • Farbräume sind ins Dokument eingebettet
  • Aktive Elemente wie Javascript sind untersagt
  • Dateianhänge sind nicht integrierbar
  • Elemente mit Transparenz sind nicht erlaubt
PDFA-Formate-Dokumente-Scan

Übersicht: PDF/A Standards und Verwendung

PDF/A-2b (2011)

  • Basiert auf PDF Version 1.7
  • Die Einbettung von JPEG2000 Images ist nun gestattet
  • Transparente Elemente sind erlaubt
  • Integration von Dateianhängen möglich (sofern PDF/A-konform)

PDF/A-3b (2012)

Einzige relevante Erweiterung im Vergleich zu PDF/A-2b: auch die Integration nicht-PDF/A-konformer Dateianhänge ist erlaubt. Der auf der PDF-Version 2.0 basierende PDF/A-4 Standard befindet sich zurzeit noch in Arbeit. Wir rechnen damit, dass die Veröffentlichung noch 2018 erfolgt.

Welche der drei PDF/A Konformitätsstufen eignet sich am besten?

Da Dateianhänge für gescannte Dokumente i.d.R. keine Rolle spielen, dürfen Sie PDF/A-3b bei Scanprojekten getrost ignorieren! Infrage kommen also für Dokumentenscans ohnehin nur PDF/A-1b oder -2b.

Grundsätzlich empfehlen wir immer die niedrigste Konformitätsstufe als Zielformat, sprich: PDF/A-1b. Denn Javascript und Transparenzen sind bei gescannten Images kaum von Belang. Auch wenn gescannte Dokumente mit Hilfe von Texterkennung in durchsuchbare Dateien konvertiert werden, reicht die niedrigste Stufe. Denn auch die 1b-Variante erlaubt die Einbettung eines Textlayers mitsamt allen Schriftarten.

Allerdings bringt PDF/A-2b einen nennenswerten Vorteil mit sich: es kann Images als JPEG2000 darstellen. Beim Scannen in Farbe entsteht dadurch ein nicht zu unterschätzender Mehrwert. Erstens kann JPEG2000 (J2K) im Gegensatz zu normalem JPG Bilder auch verlustfrei speichern. Zum zweiten ist eine deutlich bessere Bildqualität bei gleichzeitig höherer Komprimierungsrate möglich. Das heißt die Dateien sind tendenziell besser lesbar, während das Speichervolumen abnimmt.

Gibt es auch Nachteile beim PDF/A Format?

Neben den bereits erwähnten Restriktionen bei PDF/A-1b gibt es natürlich noch weitere Hemmnisse. So ist beispielsweise die nachträgliche Konvertierung in PDF/A relativ komplex und deshalb rechen- und zeitaufwändig. Wenn Sie also im eigenen Unternehmen scannen, empfiehlt es sich die Ausgabe in PDF/A direkt am Scanclient vorzunehmen.

Wenn täglich sehr viele Dokumente anfallen, lohnt sich gegebenenfalls der Einsatz eines Konvertierungsservers. Achtung: nicht alle Dokumente können problemlos in PDF/A überführt werden. Es gibt eine ganze Reihe von Software-Tools zur Validierung der PDF/A Konformität. Größere Unternehmen setzen teilweise sogar einen Validierungsserver ein, um ihre Archivierungsstrategie abzusichern.

Fazit: Vorteile von PDF/A und Empfehlungen für das Scannen von Dokumenten

Im Vergleich zu althergebrachten Archivierungsformaten wie TIFF bietet PDF/A insbesondere auch für gescannte Unterlagen eine Menge Vorteile:

  • Weltweit anerkannter Standard, der weiterentwickelt wird
  • Alle Ressourcen  zur Darstellung sind im Dokument enthalten (Langzeitarchivierung)
  • Text kann direkt ins Dokument eingebettet werden
  • Geringeres Speichervolumen möglich
  • Qualifizierte elektronische Signaturen können eigebettet werden
  • Unabhängig von Betriebssystem und Plattformen
  • Kostenlose Reader und Tools vieler verschiedener Anbieter erhältlich

Bei schwarz-weiß-Scans empfehlen wir eindeutig das PDF/A-1b Format. Die Erfahrung zeigt allerdings, dass beim bitonalen Scannen viele Probleme und Frust entstehen – besonders in Bezug auf die Lesbarkeit von Dokumenten und den Aufwand beim Scanverfahren.

Scannen Sie deshalb besser gleich in Farbe. Bei Farbscans sollte PDF/A-2b angewendet werden, weil es im Gegensatz zu 1b JPEG2000 zulässt und dadurch kleinere Dateien mit besserer Bildqualität ermöglicht.

Auf PDF/A-3b können Sie beim Scannen gänzlich verzichten.