von Andy Pillip
PDF muss sterben
Warum PDF-Dateien am Bildschirm schlecht sind
PDF ist ein ausgezeichnetes Format, um Dokumente zu transportieren und anschließend auszudrucken: Die Formatierung bleibt absolut gleich und man weiß was man bekommt.
Aber eben genau das ist ein Konzept im Druck, das auf dem Bildschirm eher behindert als nützt.
PDF bricht hart
In einem PDF werden alle Objekte (Textabschnitte, Bilder, etc.) auf Seiten fester Größe (z.B. DIN A4) angeordnet. Schriftgrößen und die Länge jeder Textzeile sind festgelegt. Damit stehen auch Zeilenumbrüche und Trennzeichen fest in einer PDF-Datei, der Text wird hart umgebrochen.
Letzteres ist auch der Grund, warum das Herauskopieren von Text aus einem PDF einfach nur nervt: Man kopiert die Zeilenumbrüche und Trennzeichen mit.
Weil Position und Maße aller Objekte festgelegt sind, lässt sich ein PDF auf unterschiedlichen Bildschirmgrößen extrem schlecht lesen:
Nimmt man ein Smartphone quer, kann man manchmal ganze Zeilen lesen. Man ist aber sehr viel am Scrollen. Ist der Text zu klein, hat man keine Möglichkeit, ihn zu vergrößern: Man kann zwar in die Seite reinzoomen, sieht dann aber nur noch einen Teil der Zeile und muss auch noch horizontal scrollen.
Wie geht's also anders?
Alle Macht dem Leser
Text in einem ordentlichen Format lässt sich an die Lesegewohnheiten des Nutzers anpassen: die Schriftgröße ist einstellbar und der Text bricht immer am Bildschirmrand um, so das nur vertikal gescrollt werden muss.
Am Touchscreen vergrößert man Text z.B. über Rein- und Rauszoomen mit der Pinch-Geste. Im Browser am PC geht das mit Strg+Scrollen. E-Reader wie der Kindle können oft mit wenigen Klicks die Schrift vergrößern.
Wann der Text umbrechen darf oder soll, lässt sich sogar vom Autor definieren.
Im richtigen Format publizieren
Wie also schafft es der bekehrte Autor, seine in der Textverarbeitung erstellten Inhalte im richtigen Format zu publizieren? Und was ist eigentlich das richtige Format?
Das vielseitigste und hier richtige Format ist HTML. Es bietet viele semantische Elemente, um den Text sinnvoll zu strukturieren, so wie Steuerzeichen für einen ordentlichen Textfluss. Basis des eBook-Formats ePub ist übrigens HTML.
So gut wie jedes Textbearbeitungsprogramm kann Texte als HTML exportieren — sogar Microsoft Office. Auch bieten die Textbearbeitungsprogramme verschiedene Steuerzeichen, um den Textfluss zu beeinflussen.
Ist der Text einmal als HTML exportiert, lässt er sich zum Beispiel ins CMS für die Webseite kopieren. Bilder müssen natürlich extra behandelt werden.
Große Dokumentensammlungen befreien
Am Bildschirm zu lesen ist gerade in Deutschland noch nicht so weit verbreitet. Oft werden sogar E-Mails noch ausgedruckt. Deshalb ist verständlich, dass an vielen Stellen das Kind schon in den Brunnen gefallen ist, und sich ein gigantischer Berg and PDF-Downloads auf der Website angesammelt hat.
Text aus PDFs automatisch extrahieren…
Zwar gibt es diverse Werkzeuge (besonders für Linux), die Textdateien aus PDFs erstellen. Auch online finden sich solche.
Beim genaueren Hinsehen fallen im extrahierten Text aber besonders folgende massiven Fehler auf:
- Überschriften sind nicht mehr erkennbar
- in vielen Zeilen stehen nur wenige Worte
- vorher getrennte Worte sind immer noch getrennt
- die Reihenfolge des Textes ist durcheinander
- Sonderzeichen sind jetzt auf einmal kryptische Zeichen
- Buchstaben, Worte oder ganze Absätze fehlen
…und dann händisch formatieren
Es führt kein Weg daran vorbei, eben diese Fehler händisch wieder auszubügeln — unter Zuhilfenahme von weiterer Software.
Programmierer können zum Beispiel mit Regulären Ausdrücken einfac Zeilenumbrüche wieder entfernen und nur doppelte behalten. Oder getrennte Worte gefolgt von einem Zeilenumbruch wieder zusammenführen.
Die Software PdfMasher ist zwar äußerst unhandlich, hilft aber ganz gut dabei, vor dem Extrahieren Struktur ins PDF zu bringen. So lassen sich zum Beispiel Kopf- und Fußzeilen rausschneiden und in mehrspaltigen Artikeln Absatzspalten sortieren.