Daten für die Ewigkeit

Jahrhundertelang waren Buchstaben die wesentlichen Speicher von Informationen. Seit etwa 50 Jahren sind es Bits und Bytes. Alles ist computerisiert. Doch digitale Datenuniversen haben drei große Nachteile:

  • Es sind Geräte nötig, um sie zu nutzen. Die Herstellung dieser Geräte verbraucht Ressourcen.
  • Die benötigten Geräte verbrauchen Energie, um zu funktionieren. Ebenso sind die Speicherung und der Transport der Daten von Energie abhängig. Derzeit vernichtet die Energiegewinnung unwiederbringlich Ressourcen.
  • Die Informationen sind in Nullen und Einsen kodiert. Jede Information (Text, Bild, Ton) wird binär abgespeichert (Strom fließt oder fließt nicht) und muss wieder dekodiert werden, um für den Menschen verständlich zu sein.

Festplatten sind nach zehn, spätestens zwanzig Jahren keine zuverlässigen Datenspeicher mehr. CD- und DVD-Roms ebenfalls nicht. Auch für andere Speichermöglichkeiten gibt es keine Garantie, dass sie in 50 oder 100 Jahren noch problemlos ausgelesen werden können.

Selbst wenn die Daten ausgelesen werden könnten, könnte man sie verstehen? Datenformate ändern sich so schnell, dass keiner garantieren kann, dass in einigen Jahrzehnten noch jemand die Nullen und Einsen wieder korrekt in die abgespeicherten Texte, Bilder, Töne zurückkodieren kann. Die einzige Sicherheit wäre, dass von jedem Computermodell und Programm eine Version nutzbar ist – eine optimistische, unrealistische Voraussetzung.

Will man Informationen tatsächlich „für die Ewigkeit“ abspeichern, muss man folgende Grundbedingungen erfüllen:

  • keine Abhängigkeit von irgendwelchen Geräten oder Energieformen
    • Menschen müssen die Informationen ohne Hilfsmittel auslesen können
    • bei kodierten Speicherformen muss die Kodierlogik zusammen mit der Informationsspeicherung abgelegt werden
  • leichte Aufbewahrung
    • feuerfest, wasserunempfindlich, temperaturunempfindlich
    • Beschriftung für Lagerung (im Idealfall das Speicherelement direkt beschriftet)
  • preiswerte Erstellung (auch von Einzelexemplaren)
  • im Idealfall: zusätzlich maschinenlesbar

Das uns bekannte Buch erfüllt (abgesehen von der Feuer-, Wasser- und Temperaturunempflindlichkeit) alle genannten Bedingungen. Wenn man ein Trägermaterial findet, das auch widrigen physischen Bedingungen standhält, ließe sich ein Buch-Ersatz herstellen.

Nehmen wir als Ausgangssituation, dass wir Shakespeares „Hamlet“, Munchs „Schrei“ und Beethovens „Neunte“ für die Ewigkeit bewahren wollen. Nehmen wir als Ausgangshypothese, dass es ein Material gibt, das die genannten Eigenschaften besitzt: Es ist stabil, witterungsbeständig, günstig herzustellen. Unterstellen wir, dass es quadratische Metallscheiben gibt, die 20 mal 20 Zentimeter groß sind (die tatsächliche Größe kann natürlich variieren, aber für die Überlegungen ist eine fixe Größe erst einmal ausreichend).

Die Text-Bewahrung

Was können wir mit solchen Scheiben anstellen? Wir könnten mittels Laser den Text direkt einbrennen, bräuchten allerdings zahlreiche Scheiben, denn der Text soll ja ohne Hilfsmittel lesbar sein. Dazu müssten die Buchstaben zwei Millimeter hoch und mindestens einen Millimeter breit sein. Laut Milchmädchen-Rechnung ergibt sich damit eine Textlänge von 200 Zeichen pro Zeile und 100 Zeilen, also 20.000 Zeichen.

„Hamlet“ (die englische Langfassung) besteht aus 29.551 Wörtern. Insgesamt sind es rund 170.000 Zeichen. Als direkt lesbarer Text würde man neun Seiten solcher Scheiben benötigen, also fünf Scheiben bei doppelseitiger Nutzung. Es muss eine Möglichkeit geben, mehr Informationen auf einer solchen Scheibe unterzubringen, ohne dass die Lesbarkeit leidet.

Man könnte den Text binär kodieren. Jedem Zeichen wird eine Zahl zugewiesen. Anschließend werden die Steuerzeichen (Zeilenwechsel, Absatzende) und für Textauszeichnungen (kursiv, fett) jeweils ein Anfangs- und ein Endzeichen definiert. Dann lässt man die Zeichen durchzählen. Das häufigste Zeichen erhält die Kodierzahl 1, das zweithäufigste die 2 usw. bis hin zu den Auszeichnungszeichen. Diese Zahlen lassen sich nach dem bekannten Schema binär kodieren.

Da das binäre System nur aus Ja- und Nein-Zeichen besteht, können diese wesentlich kleiner als Buchstaben sein, sodass drei solcher Bits einen Millimeter breit sind. Das bedeutet, man kann auf einer 20-Zentimeter-Zeile 600 Bits unterbringen, und wenn man den Zeilenabstand leicht erhöht (zwei Zeilen sind ein Millimeter hoch) 400 Zeilen erhalten. Das sind 240.000 Bits.

Durch die Sortierung, dass hochfrequente Zeichen (wie e, s, r, t, Leerzeichen) niedrige Zahlenwerte erhalten, lässt sich Platz sparen. Doch dazu muss ein weiteres optisches Zeichen zum Einsatz kommen, das anzeigt, dass ein neues Zeichen beginnt (daher auch der höhere Zeilenabstand), dies könnte ein kleiner senkrechter Strich (|) sein. Da Digitalcomputer kein drittes Zeichen (es gibt keinen Stromzustand außer fließt/fließt nicht) besitzen, müssen Zeichen immer 8 Bit oder 16 Bit lang sein, also auch Speicherplatz für Nullen am Anfang der Bitfolge „verschwenden“.

Würde man eine Sortierreihenfolge wie die folgende besitzen (e=1, a=2, s=3, r=4, t=5, u=6, o=7, b=8, Leerzeichen=9, d=10, f=11, g=12, h=13, i=14, j=15, k=16, l=17, m=18, n=19, p=20, v=21, w=22, x=23, y=24, z=25, c=26, q=27), würde „shakespeare“ als 11|1101|10|10000|1|11|10100|1|10|100|1 kodiert werden. Diese 38 Zeichen wären 13 Millimeter breit, bei einer Buchstabenbreite von einem Millimeter wäre das Wort in Buchstaben 11 Millimeter breit – und zwei Millimeter hoch. Da ein kodiertes Zeichen immer mit einer 1 beginnt, kann man das Separatorzeichen mit dieser führenden Eins verschmelzen: |1|101|0|0000||1|0100||0|00| = 28 Zeichen, nicht einmal zehn Millimeter.

Die automatische Sortierung der Zeichenhäufigkeit sowie die Einführung eines zusätzlichen Trenn-Zeichens spart enorm Platz. Inklusive Trennzeichen ist es wohl realistisch von einer durchschnittlichen Zeichenlänge von höchstens fünf Bit auszugehen. Damit ließen sich fast 50.000 Textzeichen auf einer 20 x 20 Zentimeter großen Scheibe unterbringen – mehr als doppelt so viele wie als direkte Buchstaben.

Dekodierungsregeln

Das Alphabet und dessen Verschlüsselungsregeln für Sprachlaute sind allgemein bekannt. Sie haben jedoch aufgrund ihrer ästhetischen Formgestaltung, die die inhaltliche Bedeutung begleitet, zwei Nachteile:

  • individuelle Ausprägung, kulturelle Veränderungen (Fraktur- und Sütterlin-Schriften sind für heutige Leser schwer lesbar)
  • Detailabhängigkeit (schlecht lesbar, wenn verschwommen oder beschädigt)

Durch die Kodierung in Ja-/Nein-Informationen bzw. Loch-/Kein Loch-Bits auf der Metallscheibe wird die ästhetische Komponente zugunsten der inhaltlichen Eindeutigkeit in den Hintergrund gerückt. Doch um eine solche Scheibe wieder auslesen zu können, muss die Kodierregel bekannt sein.

Daher ist ein Teil der beidseitig nutzbaren Scheibe (etwa ein Drittel der Vorderseite) für die Angabe der Kodierung reserviert. Darin sind sämtliche Bit-Kombinationen und ihre Zeichenzuordnung aufgeführt. Der Werktitel und ein bis zwei andere Informationen sind zur Illustration in dieser Kodierung angegeben: also „Hamlet von William Shakespeare“ einmal im lesbaren Klartext und darunter zeichengenau die jeweils zugeordneten Lochfolgen. Damit stehen pro Scheibe 400.000 Bits (160.000 auf der Vorderseite und 240.000 auf der Rückseite) zur Verfügung. Das sind rund 80.000 Zeichen pro Scheibe, damit genügen 2,1 Scheiben für den gesamten „Hamlet“.

Diese Textkodierung geht davon aus, dass das Wesentliche eines Textes sein Inhalt ist. Die Gestaltung folgt mit ihren möglichen Sonderzeichen für die Auszeichnung nur der Struktur. Kein Datenformat für gestaltete Texte ist zukunftssicher genug, um die Gewähr zu bieten, dass es einerseits auch ohne Computer wieder entschlüsselbar ist und zweitens überhaupt in einigen Jahrzehnten noch korrekt interpretiert wird.

Die Kodierung in binäre Zeichen soll mehrere Aufgaben erfüllen:

  • Speicherplatz sparen (65.000 Zeichen statt nur 40.000 Zeichen pro Scheibe)
  • die binär gespeicherten Informationen sind stabiler als ästhetisch gestaltete (Schriftzeichen)
  • hochfrequente Wörter (wie die Figurennamen) können eigene Zeichen erhalten, was erneut Platz spart (damit könnte Hamlet nämlich locker auf zwei Scheiben statt fünf passen)
  • die Herstellung dürfte vergleichsweise kostengünstig möglich sein, sodass jede/r bewahrenswerte Texte archivieren kann

Diese Idee kann natürlich nicht das Problem lösen, ob die Sprache in einer unbekannten Zukunft überhaupt verstanden werden kann. Damit stellt der Vorschlag nur eine Ergänzung zum Rosetta-Projekt dar, der es eben ermöglicht, Texte zu bewahren und auch bei widrigen Bedingungen zu entziffern. Die derzeitige digitale Datenhaltung kann dies jedenfalls nicht gewährleisten.

Als vorstellbaren Fall sehe ich einen Gelehrten aus dem Mittelalter (um das Jahr 1200 herum), der eben kaum technische Hilfsmittel besitzt. Diese Annahme ist bei allen existierenden apokalyptischen und dystopischen Zukunftsentwürfen zumindest angebracht. Kommt es nicht so schlimm, haben es künftige Generationen leichter, die Informationen zu entschlüsseln.

Für die Rosetta-Scheibe benötigt man ein Mikroskop mit 500-facher Vergrößerung. Um ein solches Mikroskop herzustellen, muss Glas sauber bearbeitet werden können – eine Unterstellung, die ich nicht für jedes Zukunftsszenario als realistisch einschätze. Denn während wir über die Vergangenheit ziemlich viel wissen, ist uns die Zukunft gänzlich unbekannt. Keiner vermag zu sagen, was in fünf, zehn, 50 oder 200 Jahren ist. Daher versucht meine Idee einerseits so viel Komfort (Speicherplatz) zu bieten und gleichzeitig so wenig wie möglich (keine) zusätzlichen technischen Hilfsmittel vorauszusetzen.

[Hintergrund-Info: Das geschilderte Verfahren, häufige Zeichen und Wörter mit kurzen eigenen Bitfolgen zu ersetzen, ist ein Standard-Verfahren für die Komprimierung von Dateien. Beim Komprimieren beispielsweise mittels Zip-Algorithmus werden identische Bit-Folgen innerhalb der zu komprimierenden Datei gesucht. In der komprimierten Datei gibt es dann einmal die Bit-Folge in kompletter Länge und sonst nur Informationen, wo diese einzusetzen ist. Kommt die Bit-Folge beispielsweise 18 mal in einer Datei vor, muss sie nicht 18-mal, sondern nur einmal gespeichert werden. Vereinfacht gesagt, erhalten die anderen 17 Vorkommensstellen nur einen Vermerk, dass hier diese Bitfolge einzusetzen ist – je länger die identische Bitfolge, desto größer ist die Ersparnis. So wie eben für ein sehr häufiges „e“ im obigen Beispiel nicht immer acht Bit wie im Ascii-Code benötigt werden, sondern nur zwei. Je mehr identische Bit-Folgen eine Datei enthält, desto stärker kann der Komprimierungseffekt sein. Er ist außerdem komplett reversibel, man kann aus der komprimierten Datei stets das Original zurückkodieren, indem man die Bit-Folge an allen Stellen einsetzt, wo sie hingehört. Das ist bei psychoakustischen Verfahren (wie MP3 oder AAC) oder bei psycho-optischen Verfahren (wie Jpg) nicht möglich, denn diese entfernen Informationen, die vom Menschen kaum wahrgenommen werden (je nach Kompressionsstufe). Enthält dagegen eine Bild-Datei im Tif-Format einen blauen wolkenlosen Himmel, werden darin alle einzelnen Farb-Bits korrekt abgespeichert. Bei der Komprimierung kann aufgrund der häufigen Farbidentität einzelner Pixel allerdings deutlich Speicherplatz gespart werden – und beim De-Komprimieren landen alle blauen Pixel an der richtigen Stelle. Genaus würde der Original-Wortlaut von Hamlet, wie oben geschildert, komplett und identisch rekonstruiert werden können. Er wäre somit einerseits maschinenlesbar, und andererseits ist die vorgeschlagene Komprimierungslogik so simpel, dass sie auch ohne maschinelle Unterstützung bewerkstelligt werden kann – was ja eine der gedanklichen Voraussetzungen ist.]

Die Bild-Bewahrung

Mit 50 Kilobyte pro Scheibe ist der Platz arg begrenzt. Will man Bilder (Gemälde, Fotos, Zeichnungen, Illustrationen) bewahren, kann man diese als Bild-Datei speichern. Dabei gilt wieder die Bedingung, dass kein technisches Hilfsmittel nötig sein muss. Kompression (wie bei jpg-Dateien) scheidet aus, da diese schlecht nonverbal im Erklärungsbereich der Scheibe untergebracht werden können und zu komplex für das einfache Verständnis des Inhalts sind.

Text hat den Vorteil, dass er die Zeichen linear anordnet, genauso wie die Bits auf der Scheibe linear (in Zeilen) angeordnet sind. Ein Bild ist jedoch eine Fläche. Diese kann man in Bildpunkte zerlegen. Stellt man für jeden Bildpunkt den Rot-, Grün- und Blau-Farbanteil fest, lassen sich diese Informationen digital speichern. Eine Farbtiefe von 256 pro Farbanteil (also je 256 Blau-, Grün- und Rottöne) ergibt 16,8 Millionen mögliche Farben. Eine höhere Farbtiefe ist für die Speicherung vermutlich nicht nötig, da das menschliche Auge keine feineren Nuancen unterscheiden kann.

„Der Schrei“ (Edvard Munch) (Ausschnitt; bei Klick Komplett-Bild)

Zerlegt man das Bild also in Bildpunkte und notiert für jeden Bildpunkt die Rot-, Grün- und Blau-Anteile, benötigt man 24 Zeichen pro Bildpunkt. Nutzt man das gleiche „Kompressionsverfahren“ wie bei Texten, indem man die führenden Nullen weglässt und die erste Eins jeweils als | notiert, können mehr Bildpunkte angegeben werden. Es sind also mindestens 10.000 Bildpunkte auf einer Scheibenseite notierbar. Das entspricht gerade einmal einer Fläche von 100 mal 100 Bildpunkten (der nebenstehende Bildausschnitt hat exakt diese Größe). Dabei gehen so ziemlich alle Details verloren.

Hier zeigt sich einer der Vorteile, dass wir es mit einer Fläche (eine Scheibe) statt einer Zahlenreihe zu tun haben. Was hindert uns daran, das Bild als Bild direkt auf der Scheibe zu fixieren? Die Farbe hindert uns. Farben verblassen über die Jahre, erst recht über Jahrzehnte und Jahrhunderte. Wenn wir jetzt für jede Farbe ein Graustufenbild erstellen und dieses dann nach dem cleveren Atkinson-Algorithmus aufrastern (sodass es eben nur wieder aus Löchern/Nicht-Löchern besteht), dann können wir ein Bild einfach fixieren.

„Der Schrei“ nur als Bildpunkte (Atkinson)

Auf einer Scheibe sollten dann einmal die Graustufenversion des Bildes (als Beispiel rechts) sowie die drei Farbkanäle eingespeichert sein. Die Graustufenversion dient dazu, dass einmal ein möglichst realistischer Gesamteindruck vermittelt wird. Die Aufrasterung kann bei Bildern durchaus auf zehn oder zwanzig Punkte pro Millimeter ansteigen, da in diesem Fall kein manuelles Auslesen nötig ist.

Es müsste im Erklärungsbereich die Farbwahl erläutert werden. Dazu wäre es sinnvoll, wenn Objekte der Natur, Wellenlängen des Lichts angegeben werden. Wenn es technisch möglich ist, sollte auf den Scheiben ein Farbaufdruck vorgenommen werden, der feuer-, wasser- und klimabeständig ist. Diese begleitende Farbinformation kann das Verständnis erleichtern. Da jedoch Farbe keine 100-prozentige Beständigkeit aufweisen kann, ist die Zerlegung in Farbauszüge und die Verwendung zusätzlicher Erklärungen, Piktogramme notwendig.

Ich unterstelle, dass das Aufbringen dieser Farbmarkierung teuer ist und daher automatisiert bei der Herstellung erfolgen sollte. Die Scheiben sollen in möglichst großer Stückzahl hergestellt werden, sodass jeder individuell die für ihn bewahrenswerten Bilder sichern kann.

„Der Schrei“: Rot-, Grün- und Blau-Farbanteile als Graustufen

Im Idealfall haben die gespeicherten Punkte eine Doppelfunktion: Für den Betrachter sind sie als Bildpunkte wahrnehmbar, für den Drucker sind sie als Matrize nutzbar. Im Tiefdruckverfahren (Farbe aufstreichen, Papier gegendrücken, Farbe setzt sich aus den Löchern auf das Papier ab) sollte ein farbgenaues Abbild entstehen können. Hilfsmarkierungen an den Bildrändern können dabei helfen.

„Der Schrei“: Rot-, Grün- und Blau-Farbanteile als Druckraster (Atkinson)

Auch wäre es aus Bewahrungssicht effektiver, die Bildauflösung zu reduzieren und dadurch die Doppelfunktion zu ermöglichen. Was nützt die höchste Auflösung, wenn ein Bild nicht ohne größeren technischen Aufwand in der korrekten Farbwirkung hergestellt werden kann.

Die Ton-Bewahrung

Wollen wir Beethovens Neunte bewahren, stehen wir vor dem gleichen Problem wie beim Bild: Bei 50 Kilobyte ist keine hochaufgelöste Speicherung möglich, das entspricht gerade einmal einer Drittel Sekunde CD-Spielzeit. Jetzt könnte man, statt den Ton direkt zu kodieren, die Noten in einer ähnlichen Weise wie Text kodieren: Jede Note erhält einen Kode, hochfrequente haben niedrige Nummern. In den Erläuterungen müsste dann auch angegeben sein, wie lang eine Note läuft. Dabei sollten universelle Bezüge gewählt werden, also Tag-Nacht-Zeiten, Erdumläufe oder ähnliches.

Aber auch beim Ton hat die Scheibe einen großen Vorteil. Denn statt den Ton aufzurastern, ließe er sich wie bei einer Schallplatte auch einfach einritzen. Dreht man die Scheibe und hält eine Nadel in die Rille, ist der Klang zu vernehmen. Eine Erläuterung würde genau dieses Verfahren und die Geschwindigkeit beinhalten.

Es sind auch Hybriden vorstellbar, die auf einer Seite die Tonaufzeichnung und auf der anderen Seite die Noten – wie Text kodiert – enthalten. Mit der Schallplatte haben wir einen populären Vertreter der permanenten Tonaufzeichnung, jedoch ist die Schallplatte bzw. ihr Material nicht dazu ausgelegt, als möglichst langlebiges Speichermedium zu fungieren.

Letztlich

Das Problem der Abhängigkeit von digitalen Daten beinhaltet den potenziellen Verlust aller Inhalte und Werke. Diesem kann nur durch Speicherverfahren begegnet werden, die technikneutral und universell verständlich sind.

Die Langlebigkeit des Trägermediums ist von dem verwendeten Material abhängig. Die Speichermenge von den gestellten Anforderungen. Wenn man wie ich als eine Hauptanforderung stellt, dass die Informationen ohne Hilfstechnik zugänglich sein müssen, sieht man sich mit Herausforderungen konfrontiert, die vor allem in der begrenzten Speicherkapazität bestehen.

Dadurch ist das Verfahren für Filme unerschwinglich. Auch als „Sicherheitskopie“ ist es ungeeignet. Jedoch ist es möglich, auch beispielsweise Datenbanken so zu sichern. Man exportiert sie als Textdatei und definiert ein weiteres Zeichen als Dateneintragstrenner.

Auch wenn ich bezweifle, dass das Verfahren jemals in der Praxis ankommen wird, sehe ich die Machbarkeit optimistisch. Mit seiner aktuellen Fertigungstechnik für die Unibody-Laptops hat Apple bewiesen, dass es möglich ist, Metall mittels Laser mit einer unvergleichlichen Präzision herzustellen. Ein ähnliches Verfahren könnte genutzt werden, um die Informationen in die Scheiben zu „brennen“.

Das Interesse an dauerhaften – Ewigkeit versprechenden – Speichermöglichkeiten ist virulent. Das zeigen die Anstrengungen, Dateistandards zu vereinbaren, Literatur möglichst einheitlich in Bibliotheken digital zu erfassen und die stetig wachsenden Berge von Daten-CDs, die nach einigen Jahren nicht mehr lesbar sind.

Das Hauptproblem sind die Prioriäten. Während wir wohl übereinstimmen, dass bei Shakespeares Werken der Textinhalt im Vordergrund steht, sehen viele Werkschöpfer und Autoren auch die Gestaltung ihrer Texte als ebenso wichtig an. Diese kann jedoch nur mit klassischen Medien (beispielsweise in Büchern) zu vertretbaren Kosten umgesetzt werden. Bücher neigen dazu, im Gegensatz zu beispielsweise Metallscheiben, nach wenigen Jahrzehnten schlecht lesbar zu sein und bei Feuer- oder Wasserkontakt deutlich zu leiden.

Mir macht die Vorstellung Angst, dass bei einem totalen Stromausfall oder bei einem – wie auch immer ausgelösten – Rückfall in mittelalterliche Zustände zahlreiche Werke unwiederbringlich verschwinden. Das ist keine einfache kleine Angst, sondern sollte für alle Menschen, die geistige Werke schaffen, eine existenzielle Angst sein. Es ist dringend an der Zeit, dass wir etwas unternehmen, damit der Daten-GAU nicht eintritt.

Das vorgestellte Modell verfolgt dabei den Ansatz der größtmöglichen Transparenz und Leichtigkeit in der Nutzung (Erstellung, Lagerung, Auslesen). Eine perfekte Lösung wird es nie geben. Die Frage ist nur, in welchen Bereichen wir zu Kompromissen bereit sind. Noch haben wir die Technik, die uns dabei hilft, so viele Daten wie möglich vor einer Katastrophe zu retten – nutzen wir sie!

Alexander Florin: Alexander Florinein Kind der 70er • studierter Anglist/Amerikanist und Mediävist (M.A.) • wohnhaft in Berlin • Betreiber dieses Blogs zanjero.de • mehr über Alexanders Schaffen: www.axin.de ||  bei Google+ || auf Twitter folgen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*