CAS (Content-Addressed Storage)

CAS (Content-Addressed Storage) - inhaltsadressierte Speicherung - ist eine Methode zur Speicherung unveränderlicher Dokumente als Objekte und zum schnellen Zugriff auf diese.

Unter unveränderlichen Dokumenten versteht man Daten, die über einen bestimmten Zeitraum hinweg nicht aktualisiert oder gelöscht werden, wie z. B. E-Mails inklusive deren Anlagen, juristische Dokumente, medizinische Daten, Protokolldateien oder Daten, die den gesetzlichen Vorschriften entsprechen müssen. CAS verhindert, dass unveränderliche Daten dupliziert oder verändert werden, sobald sie gespeichert sind, und bietet einen WORM-Datenzugriff (Write Once, Read Many), während die Daten in ihrer ursprünglichen Form erhalten bleiben.

Der Begriff "Content-Addressed Storage" wurde von der EMC Corporation geprägt, als sie im Jahr 2002 ihr Speicherprodukt Centera auf den Markt brachte. Centera war eine speziell entwickelte Speicherplattform für die Archivierung, die den Weg für CAS-Implementierungen ebnete. Nach der Übernahme von EMC durch Dell im Jahr 2016 bot Dell EMC Centera bis 2018 weiter an. Bereits 2016 lenkte das Unternehmen seine Kunden jedoch in Richtung seiner Elastic Cloud Storage (ECS)-Produkte, die CAS-Unterstützung boten und dies auch heute noch tun.

Wie funktioniert Content-Addressed Storage?

Beim Speichern von Daten weist ein CAS-System jedem Objekt eine Inhaltsadresse zu. Die Inhaltsadresse ist ein eindeutiger Identifikator, der auf der Grundlage des Inhalts selbst berechnet wird und einen digitalen Fingerabdruck liefert, der die Authentizität und Einzigartigkeit der Daten gewährleistet.

Anwendungen, die auf Daten in einem CAS-System zugreifen müssen, müssen die Inhaltsadressen verwenden, um die gewünschten Objekte zu finden und abzurufen. Bei CAS werden die Daten auf der Festplatte und nicht auf einem Band gespeichert, was die Suche nach archivierten Daten vereinfacht.

Da die Adresse eines Objekts auf dem Inhalt basiert, kann sie verwendet werden, um sicherzustellen, dass jedes gespeicherte Objekt eindeutig ist, wodurch eine Datenduplizierung vermieden wird. Wenn eine Anwendung versucht, doppelte Daten einzufügen, erstellt das System einen Zeiger auf das ursprüngliche Objekt, anstatt ein zweites, identisches Objekt mit derselben Adresse zu erstellen. (Identische Objekte erhalten immer die gleiche Adresse.)

Einige CAS-Implementierungen speichern jedoch eine Sicherungskopie jedes Objekts, um die Zuverlässigkeit zu erhöhen und das Risiko eines katastrophalen Datenverlusts zu minimieren, aber diese Daten werden getrennt von der primären Speicherplattform verwaltet.

Die inhaltsbasierte Benennung stellt auch sicher, dass die Daten nicht verändert werden. Wenn ein Objekt geändert wird, erhält es automatisch eine andere Content-Adresse, und die Daten werden als neues Objekt gespeichert, wobei das ursprüngliche Objekt unangetastet bleibt. Darüber hinaus kann ein einmal gespeichertes Objekt erst nach Ablauf der festgelegten Aufbewahrungsfrist gelöscht werden.

Vorteile des CAS-System

Ein wichtiger Vorteil von CAS besteht darin, dass es den durch Datensicherungen und -archive benötigten Speicherplatz minimiert, indem jedem Objekt eine Speicherdauer zugewiesen wird und doppelte Daten vermieden werden. Andere Arten von Sekundär- oder Archivspeichersystemen sind in dieser Hinsicht nicht so effizient, da viele der gespeicherten Daten dupliziert oder veraltet sind.

Ein weiterer Vorteil ist die Authentifizierung. Da es von jedem Objekt nur eine Kopie gibt (ungeachtet der Backups), ist die Überprüfung der Legitimität viel einfacher. Der Datenabruf ist auch schneller als bei anderen Methoden der Datenarchivierung, wie z. B. auf Band oder optischen Platten.

Trotz dieser Vorteile sind reine CAS-Speichersysteme auf dem Rückzug und werden durch modernere Objektspeicherprodukte ersetzt, die mehr Flexibilität bieten, wie Dell EMC ECS, das neben CAS auch Datenzugriffstechnologien wie Amazon S3, Dell EMC Atmos, Swift und OpenStack unterstützt.

Stand: 06.01.2022