William Parker und seine Kollegen waren 2012 auf der Suche nach sorgfältig gesammelten Daten über das Wachstum von 50 000 Schimmel-Fichten, die über ein Jahrzehnt hinweg in einem Umkreis von 1500 Kilometern gepflanzt worden waren. Schließlich stießen sie auf ein Magnetband, eine relativ moderne 3,5-Zoll-Diskette und einen Kasten mit älteren 5,25-Zoll-Disketten. Diese enthielten Daten über Feldversuche in den späten 1970er Jahren, deren Ziel die Verbesserung des Ertrags in der kommerziellen Holzwirtschaft war. Parker, der am Ontario Forest Research Institute in Sault Saint Marie in Kanada tätig ist, wollte herausfinden, ob Strategien wie die "unterstützte Migration" Wälder in einer sich erwärmenden Welt schützen könnten – und diese Langzeitstudie war genau das, was er dafür benötigte. "Die Daten zu finden war eine Art Heureka-Moment für uns – halleluja, wir haben es!"

Doch schnell folgte die Ernüchterung. Parker bootete einen alten Computer, doch dieser konnte die neueren Disketten nicht lesen. Und niemand hatte Laufwerke, um die anderen Datenträger auch nur auszuprobieren. Die IT-Abteilung von Parkers Institut verwies den Forscher an ein kommerzielles Datenrettungsunternehmen. Bei den älteren Disketten handelte es sich, wie sich zeigte, um "Flippies", beidseitig in Formaten beschrieben, die nur wenige Laufwerke lesen konnten. Die Spezialisten konnten die Disketten schließlich mit Hilfe eines sorgfältig platzierten Lochers, einer Prise digitaler Forensik und geschickter Programmierung, die uralte Software in moderne Spreadsheets verwandelte, entziffern.

Parkers Erfahrungen sind in der heutigen Wissenschaft kein Einzelfall. Die Rettung von Daten, die sich auf heute nicht mehr verwendeten Datenträgern befinden, gleicht der Öffnung mehrerer ineinander verschachtelter Käfige, sagt Bertram Lyons, der als Archivar bei dem US-amerikanischen IT-Unternehmen AV Preserve tätig ist. "Wissenschaftler sind im Besitz von Informationen, die jedoch unzugänglich in alten Formaten gefangen sind. Teilweise handelt es sich um gerätetechnische Barrieren, teilweise um Software-Barrieren. Denn sowohl Geräte als auch deren Software können veralten." Wenn Wissenschaftler Daten von alten Medien lesen wollen, müssen sie zunächst ein passendes Lesegerät finden und mit einem modernen Computer verbinden. Doch die Portierung alter Dateien auf einen modernen Datenträger ist nur der erste Schritt. Als Nächstes müssen die Forscher den Inhalt der Dateien entschlüsseln – und dafür benötigen sie weitere Werkzeuge.

20 000 alte Laufwerke auf Vorrat

Wenn es um alte Hardware geht, sind Bibliotheken gute Orte, um mit der Suche zu beginnen. Das "Memory Lab" der öffentlichen Bücherei in Washington beispielsweise bietet Terminals an, an denen Besucher selbstständig 3,5-Zoll-Disketten in moderne Formate kopieren können. Die Bibliotheken der Stanford University haben ein ähnliches Angebot für 5,25-Zoll-Disketten. Und das eScholarship Research Centre der University of Melbourne in Australien beherbergt ein "Museum der redundanten Technik", das eine Vielzahl von alten Formaten verarbeiten kann. "Wenn Sie ein Magnetband, eine Diskette und ein passendes Laufwerk haben", so der Leiter der Einrichtung, Gavan McCarthy, "dann können wir die Daten konvertieren."

Für ein paar Dollar pro Diskette bieten auch Dienstleister wie FloppyDisk in Kalifornien oder RetroFloppy in North Carolina ihre Dienste an. Und auch Firmen, die sich auf die Rettung beschädigter Datenträger spezialisiert haben, können bei der Konvertierung alter Medien helfen. DriveSavers in Kalifornien beispielsweise hält 20 000 alte Laufwerke vor, das älteste ist ein Shugart ST-506 Festplattenlaufwerk von 1980. Parker beauftragte CBL Data Recovery im kanadischen Toronto mit der Rettung seiner Daten – zum Preis von 3000 Dollar. Der Erfolg hängt davon ab, wie empfindlich die jeweiligen Datenträger sind und wie sie aufbewahrt wurden. 5,25-Zoll-Disketten beispielsweise werden leicht durch Druck und durch Öle beschädigt, und Iomega-Zip-Wechselplatten sind recht instabil. Es sind jedoch nicht nur die "Bitfäule" oder Schäden am Medium selbst, welche alte Datenträger unlesbar machen können, betont McCarthy: "Die Zahl der verfügbaren Maschinen und ihrer Ersatzteile nimmt unglaublich schnell ab." Papier erweist sich, Ironie der Geschichte, als stabileres Speichermedium.

"Die Zahl der verfügbaren Maschinen und ihrer Ersatzteile nimmt unglaublich schnell ab"
Gavan McCarthy

Wer noch im Besitz alter Laufwerke und der nötigen Netz- und Verbindungskabel ist, wird zunächst selbst versuchen, die Daten von den alten Medien zu retten. Doch neue Computer haben oftmals nicht mehr die benötigten Anschlüsse für die alte Hardware. Einige alte Zip-Laufwerke beispielsweise wurden über einen parallelen Port angeschlossen, der heute weitgehend verschwunden ist. Doch es gibt eine Reihe von Adaptern, insbesondere von Archivaren und Videospiel-Enthusiasten verwendet, die hier helfen können. Ein Beispiel dafür ist KryoFlux, entwickelt von der Software Preservation Society, der Diskettendaten über einen USB-Anschluss leiten kann. Bei der KryoFlux Preservation Technology Group in Großbritannien kostet dieses Gerät etwa 100 Euro.

Häufig sind die Betriebssysteme moderner Computer nicht mehr in der Lage, in alten Formaten geschriebene Dateien zu lesen. Lori Emerson, die Direktorin des Media Archaeology Lab der University of Colorado in Boulder liefert ein Beispiel: Um eine mysteriöse Datei von einer alten Zip-Diskette zu retten, musste zunächst ein passender Computer aufgespürt werden – ein Power Macintosh 8100 aus dem Jahr 1994 mit dem Betriebssystem OS 7. Die Datei entpuppte sich als Verzeichnis einer alten Version des Literaturverwaltungsprogramms EndNote.

Von der Karteikarte über Disketten in die Cloud

Die beste Verteidigungsstrategie gegen den Verlust von Daten sei, immer mit der Zeit zu gehen, meint Guido Pauli, Medizinchemiker an der University of Illinois in Chicago. Er ist für die Datenbank NAPRALERT verantwortlich, in der Forscher nach Naturprodukten – etwa Pflanzenextrakten – und damit verbundenen biologischen Reaktionen suchen können. Die Datenbank begann ihr Leben als schlichter Karteikasten des Doktorvaters von Pauli, wanderte dann zunächst auf ein Magnetband, durchquerte eine Reihe unterschiedlicher Diskettenformate und befindet sich nun in der Cloud und auf mehreren Festplatten auf zwei Kontinenten. "Ich besitze zwar noch einige der alten Datenträger", so Pauli, "aber ich bin nicht darauf angewiesen, sie noch lesen zu können."

Die nächste Herausforderung bei der Rettung alter Daten ist es, die Dateien korrekt zu entschlüsseln. Für Digitalarchivare ist der erste Schritt zur Datenerhaltung stets die Anfertigung einer "image copy", eines Bit für Bit vollständigen Speicherabbilds aller digitalen Daten auf dem Medium, einschließlich überschriebener und versteckter Dateien. Das ist die zentrale Aufgabe der "digitalen Forensik". Die Lizenzgebühren für kommerzielle Werkzeuge auf diesem Sektor betragen Tausende von Dollar oder Euro. Zudem können solche Werkzeuge aus legalen Gründen oft nicht auf vertrauliche Informationen zugreifen. Deshalb haben Digitalarchivare "BitCurator" entwickelt, eine Open-Source-Software, die vollständige Speicherabbilder erzeugt, und die Anwender bei den ersten Schritten zur Interpretation des Speicherinhalts anleitet. Dabei geht es zunächst darum, aus der Anordnung der Bits und Bytes abzulesen, wie die Dateien formatiert sind und welches Betriebssystem sie lesen können. Je obskurer das Format ist, desto schwieriger ist diese Aufgabe.

Speicherblöcke aus Nullen und Einsen
© iStock / 3alexd
(Ausschnitt)
 Bild vergrößernSpeicherblöcke aus Nullen und Einsen
Manche Datenbanken begannen ihr Leben als Zettelkasten und wanderten dann über verschiedene Speichermedien ins Digitale. Doch selbst wenn man alte Daten entschlüsseln kann, müssen die Nullen und Einsen erst noch interpretiert werden.

Auch Chris Muller, Gründer des Datenrettungs-Unternehmens Muller Media, hat Programme zur Entschlüsselung alter Dateien geschrieben. Doch oftmals seien es ganz menschliche Hinweise, die entscheidend weiterhelfen, erläutert er. Deshalb bittet Muller seine Kunden bereits vor Beginn eines Projekts um Fotografien der Medien. Handschriftliche Markierungen, die den Kunden als bedeutungslose Buchstaben und Zahlen erscheinen, liefern Muller oft Hinweise auf die verwendeten Formatierungen und Programme. Im nächsten Schritt geht es darum, die Dateien zu öffnen, erklärt Christopher Lee von der School of Information and Library Science an der University of North Carolina, einer der wichtigsten Köpfe hinter BitCurator. Wenn sich das Format der Dateien nicht erkennen lässt, wisse man auch nicht, mit welchem Programm man darauf Zugriff bekommt, so Lee. "Die Software stellt oft eine Barriere dar." Die Wissenschaftler können dann einen Hex-Editor verwenden, um den rohen binären Inhalt der Dateien anzuzeigen. Mit etwas Glück finden sich darin Hinweise darauf, mit welchem Programm eine Datei geschrieben wurde. Teilweise lassen sich so auch direkt verwendbare Daten aus Dateien extrahieren. BitCurator kooperiert mit der Software Reference Library des US National Institute of Standards and Technology bei der Zuordnung von Dateien zu den Programmen, mit denen sie erzeugt wurden.

Digitale Archäologie macht alte Dateien lesbar

Mitunter reichen einige Hinweise aus, um ein modernes Programm zu finden, das von einem alten, aber ähnlichen Programm geschriebene Dateien öffnen und in ein neueres Format konvertieren kann. Wenn die Originalsoftware noch verfügbar ist, gibt es eine Alternative: Die Emulation eines alten Betriebssystems auf einem modernen Computer. Das Internet Archive, ein gemeinnütziges Projekt in San Francisco, bietet beispielsweise Emulatoren für MS-DOS an, die über einen Internetbrowser laufen. Emulation sei insbesondere kosteneffektiv, wenn es um Software für sehr spezielle Aufgaben oder visuelle Darstellungen geht, die sich nicht einfach in heutige Formate umwandeln lässt, sagt Klaus Rechert vom Institut für Informatik der Universität Freiburg. Er entwickelte jüngst einen Emulator, um eine sprachwissenschaftliche Analyse nachzuvollziehen, die Sprachenkarten der Dialekte in Baden-Württemberg im Textsatzsystem LaTeX produziert hatte.

Eine andere Möglichkeit ist die "digitale Archäologie", die Entwicklung von spezieller Software, die alte Dateien lesbar machen kann. Doch dieser Weg ist teuer, häufig erfolglos und erfordert zudem wenigstens eine grundlegende Vorstellung davon, was eine Datei enthält. David Schmidt von RetroFloppy erinnert sich an eine relativ einfache Situation, in der er nach sich wiederholenden Mustern gesucht hat, die den Buchstaben des Kundennamens entsprachen – so konnte er eine Konversionsmatrix erstellen, um damit Daten von einem uralten IBM-System zu retten, die auf einer 8-Zoll-Diskette gespeichert waren. Unternehmen wie George Blood und AV Preserve haben sich auf komplexere Varianten dieses Problems spezialisiert.

Die größte Hürde ist mitunter nicht technischer, sondern menschlicher Natur. Es reicht nicht aus, eine Datei zu entschlüsseln und zu erfahren, dass sie sechs Spalten und 100 000 Zeilen enthält: Die Forscher müssen herausfinden, was die Zahlen bedeuten. Amy Pienta und ihr Team aus Archivaren des Inter-University Consortium for Political and Social Research in Ann Arbor im US-Bundesstaat Michigan beispielsweise beschafften einen restaurierten Lochkartenleser, um Daten einer großen Langzeituntersuchung über Menschen im Ruhestand aus den 1950er Jahren zu retten. Doch nachdem die Daten auf den Lochkarten in ASCII-Zahlen umgewandelt waren, benötigten sie die alten Kodierungstabellen, um diese Zahlen zu interpretieren. Bedeutete eine 1 in einer bestimmten Spalte Ja oder Nein?

Parkers Geschichte weist eine interessante Wendung auf: Die digitalen Daten enthielten lediglich Mittelwerte für ganze Baumgruppen. Doch ein Telefonanruf brachte zu Tage, dass die alten Aufzeichnungen für die einzelnen Bäume noch existieren – auf Papier. So war für Parker lediglich eine mehrstündige Autofahrt nötig, um den Forscher zu treffen, der die Untersuchung durchgeführt hatte, und von ihm die Daten zu bekommen. "Wenn man Daten erhalten will", so folgert McCarthy, "dann setzt man sich am besten in Bewegung, solange die Leute, die die Daten produziert haben, noch unter uns sind."