Wir laden Sie zur Zusammenarbeit, zum Erfahrungsaustausch und zu neuen Ideen ein. Sie haben interessante Ideen? Mach bei uns mit!
Informationshinweis!
Lizenzen wurden Ihrem Warenkorb hinzugefügt.Möchten Sie zur Kasse gehen?
NEIN
Ja, ich bereit
Informationshinweis!
Ihre Bestellung wurde erfolgreich erstellt. Eine Rechnung zur Zahlung wurde an Ihre E-Mail-Adresse gesendet.
Ок
Informationshinweis!
Captcha-Eingabefehler. Bitte versuche es erneut.
OK

Datendeduplizierung | Data Deduplication

Datum: 1 März 2021

* * *

In diesem Artikel geht es um ein wichtiges Thema, nämlich um die Datendeduplizierung. Im Laufe des Artikels werden wir uns mit folgenden Fragen beschäftigen: Was versteht man unter Deduplizierung? Wie funktioniert dieser Prozess? Was sind die Vor- und Nachteile dieser Technologie? Außerdem werden wir über die praktische Anwendung der Deduplizierung in der Datensicherung sprechen.

DATENDEDUPLIZIERUNG EINFACH ERKLÄRT


Datendeduplizierung ist ein Prozess, der redundante Kopien von Daten entfernt und somit den Speicheraufwand reduziert. Das Ziel von dieser Technologie ist die Speicherkapazität zu optimieren. Unabhängig von der Methode stellt die Datendeduplizierung sicher, dass nur eine einzige einzigartige Information auf dem Medium gespeichert wird. In dieser Hinsicht ist der Detaillierungsgrad ein wichtiger Punkt dieser Technologie. Die Deduplizierung kann auf Datei-, Block- und Byteebene durchgeführt werden. Jede Methode hat ihre eigenen Vor- und Nachteile.

* * *

METHODEN DER DEDUPLIZIERUNG


Deduplizierung auf Dateiebene vergleicht eine Datei mit anderen bereits gespeicherten Dateien. Wenn die Datei einzigartig ist, wird sie gespeichert. Wenn eine solche Datei bereits auf dem Gerät vorhanden ist, wird nur der Zeiger (Link) auf die vorhandene Datei gespeichert, sodass immer nur eine Kopie der Datei gespeichert wird und nachfolgende Kopien mit der Originaldatei verknüpft werden. Die Vorteile dieser Methode sind Einfachheit, Geschwindigkeit und eine minimale Senkung der Leistungsfähigkeit.

Deduplizierung auf Blockebene ist die häufigste Methode, bei der ein Datenblock (eine Datei) analysiert wird. Dabei werden nur einzigartige Wiederholungen jedes Blocks gespeichert. Ein Block ist eine logische Einheit, daher kann er unterschiedliche Größen (Längen) haben. Alle Daten werden mit einem Hash-Algorithmus wie MD5 oder SHA-1 verarbeitet. Dieser Algorithmus erstellt und speichert einen Identifikator (eine Signatur) für jeden eindeutigen Block in der Deduduplizierungsdatenbank.

< Deduplizierung auf Blockebene

Das heißt, wenn eine Datei sich während ihres Lebenszyklus geändert hat, werden nur ihre geänderten Blöcke im Speicher gespeichert und nicht die gesamte Datei, selbst wenn nur wenige Bytes sich geändert haben.

Es gibt zwei Arten der Blockdeduplizierung. Einmal mit konstanten und mit variablen Blocklängen. Bei der Deduplizierung mit variablen Blocklängen werden Dateien in Blöcke unterschiedlicher Größe aufgeteilt, wodurch die Datenspeicherung effizienter wird als mit Blöcken mit fester Länge. Als Nachteil der Deduplizierung mit variabler Blocklänge kann man eine langsamere Verarbeitungsgeschwindigkeit und die Erstellung einer großen Menge von Metadaten nennen.

Deduplizierung auf Byte-Ebene hat dasselbe Prinzip wie die Deduplizierung auf Blockebene. Anstelle von Blöcken wird jedoch ein Byte-Vergleich von neuen und geänderten Dateien durchgeführt. Diese Methode ist die einzige Methode, die die vollständige Beseitigung von Datenverdopplungen garantiert, sie stellt jedoch sehr hohe Leistungsanforderungen.

Als Ergebnis davon lässt sich sagen, dass die Deduplizierung auf Blockebene der optimalste Weg ist und viel effizienter als die Deduplizierung auf Dateiebene ist und braucht weniger Leistung als auf Byteebene. Als Nachteil kann man sagen, dass sie eine hohe Rechenleistung benötigt.

* * *

DEDUPLIZIERUNG UND DATENSICHERUNG


Bei der Datensicherung kann sich die Deduplizierung zusätzlich zu den oben beschriebenen Methoden am Ausführungsort, an der Datenquelle (am Client), auf der Seite des Speichergeräts (Server) oder als Client-Server-Zusammenarbeit unterscheiden.

Deduplizierung auf Client-Seite wird direkt an der Quelle durchgeführt und verwendet dabei nur seine Rechenressourcen. Nach der Deduplizierung werden die Daten auf das Speichergerät übertragen. Deduplizierung auf Client-Seite erfolgt immer nur mit Software. Der Nachteil dieser Methode ist die hohe Belastung des Prozessors und des Arbeitsspeichers des Clients, der Vorteil ist die Möglichkeit, Daten über Netzwerke mit geringer Bandbreite zu übertragen.

Deduplizierung auf Server-Seite Eine Deduplizierung auf Serverseite ist dann möglich, wenn alle Daten vollständig in ihrer unbearbeiteten (ursprünglichen) Form (ohne Komprimierung oder Codierung) auf den Server übertragen werden. Server-Deduplizierung wird in Hardware und Software unterteilt. Die Hardware wird mithilfe einer Deduzierung-Hardware ausgeführt, bei der es sich um eine separate Hardwarelösung handelt, die Deduplizierungs- und Datenwiederherstellungslogik integriert. Der Vorteil der Hardware-Methode besteht in der Möglichkeit, die gesamte Deduplizierungslast vom Server auf ein separates Gerät zu übertragen und die Deduplizierung selbst zu einem vollständig transparenten Prozess zu machen. Bei der Software-Deduplizierung wird eine spezielle Software verwendet, die die gesamte Deduplizierungsarbeit übernimmt. In diesem Fall muss jedoch die auf dem Server auftretende Belastung berücksichtigt werden, um die Deduplizierung erfolgreich durchzuführen.

Bei der gemeinsamen Client-Server-Deduplizierung werden Prozesse sowohl auf dem Client als auch auf dem Server ausgeführt. Bevor die Daten vom Client an den Server gesendet werden, versuchen zwei Geräte zunächst herauszufinden, welche Daten sich bereits im Speicher befinden. Dazu berechnet der Client einen Hash für jeden Datenblock und sendet ihn als eine Reinfolge von Hasch-Schlüsseln an den Server. Der Server akzeptiert und vergleicht die empfangenen Hash-Schlüssel mit seiner Hash-Tabelle und sendet dann eine Antwort an den Client in Form einer neuen Liste von Hash-Schlüsseln, die er nicht in der Tabelle hat. Und erst danach sendet der Client Blöcke mit Daten an den Server. Die Effektivität dieses Verfahrens wird durch die Übertragung der Datenverarbeitung auf den Server und die geringe Netzwerklast erreicht, da nur einzigartige Daten dabei übertragen werden.

* * *

NACHTEILE VON DEDUPLIZIERUNG


Das Hauptproblem bei der Deduplizierung ist meistens der Datenkonflikt, der auftreten kann, wenn zwei verschiedene Blöcke denselben Hash-Schlüssel generiert haben. Dadurch wird die Datenbank beschädigt, was dazu führt, dass die Datensicherung nicht richtig funktionieren kann und somit die Daten nicht wiederhergestellt werden können. Je größer die Datenbank und je häufiger Änderungen vorgenommen werden, desto wahrscheinlicher treten Konflikte auf. Die Lösung für dieses Problem kann darin bestehen, den Hash-Speicherplatz zu vergrößern, da die Wahrscheinlichkeit von Konflikten umso geringer ist, je größer die Hash-Schlüssel sind. Derzeit wird ein 160-Bit-Schlüssel verwendet, der vom SHA-1-Algorithmus generiert wird. Das sind 2160=1.5 х 1048 einzigartigen Hash-Schlüssel.

VORTEILE VON DEDUPLIZIERUNG


An der ersten Stelle steht die effiziente Nutzung des Speicherplatzes. Laut EMC reduziert die Datendeduplizierung den Speicherbedarf im Durchschnitt um das 10- bis 30-fache. Dieser Aspekt hat natürlich einen großen wirtschaftlichen Vorteil. Es ist auch vom Vorteil, die Deduplizierung mit geringer Netzwerkbandbreite zu verwenden, da es nur einzigartige Daten übertragen werden. In Bezug auf die Datensicherung ermöglicht die Deduplizierung, dass Datensicherungen häufiger erstellt werden und können längere Zeit gespeichert werden.

BACKUP EXEC DEDUPLICATION


Die Backup Exec-Deduplikation führt die drei oben beschriebenen Methoden aus: auf der Server-Seite (also die Software-Methode); Auf der Client-Seite (hierfür muss der Backup Exec-Agent auf dem Client installiert sein) und die dritte Methode ist die Deduplikation auf dem Gerät von OpenStorage (Hardware-Methode). Für jede Methode hat Backup Exec spezifische Hardwareanforderungen, die im Backup Exec-Administratorhandbuch zu finden sind.

Schauen wir uns die Konfiguration der Deduplizierung auf dem Backup Exec-Server für eine lokale Festplatte oder ein Disk-Array, genauer an (ohne Deduplizierung auf Array-Ebene). Dazu müssen wir einen Storage mit einer Deduplizierungsfunktion erstellen.

  1. Tab Storage > Configure Storage > Disk-based storage
    Deduplizierung auf Server konfigurieren Backup Exec
  2. Wählen Sie den benötigten Parameter Deduplizierung disk storage
    Backup Exec Deduplication disk storage
  3. Danach folgen noch ein paar Fragen, und das war's: Wir haben eine Deduplizierungsdiskette erstellt.

Jetzt ist die Einstellung abgeschlossen. Es müssen nur noch Aufgaben für die Datensicherung erstellt werden. Es ist wichtig zu beachten, dass auf dem BackupExec-Server nur ein Deduplication-Disk-Storage vorhanden sein kann. Dieser Punkt muss bei der Planung einer Datensicherung berücksichtigt werden.

Bei Verwendung eines OpenStorage-Geräts (mit Deduplizierungsunterstützung auf der Client-Seite) ermöglicht das System die Deduplizierung auf der Client-Seite unter Umgehung des BackupExec-Servers. Dazu müssen Sie die Sicherungsaufgabe des gewünschten Geräts öffnen und in den Eigenschaften auf dem Storage folgendes eingeben: «Enable the remote computer to directly access the storage device and to perform client-side deduplication, if it is supported»..

Backup Exec OpenStorage

Vergessen Sie danach nicht, die Backup ExecServices neu zu starten und den Backup Exec-Agenten auf der Clientseite zu installieren. Es gibt noch eine zweite Option, wenn ein OpenStorage-Gerät mit dem Server verbunden ist - man kann auch eine Deduplizierung auf der Backup Exec-Serverseite durchzuführen. Wählen Sie dazu in den Aufgabeneinstellungen die Option: «Enable the remote computer to access the storage device through the Backup Execserver and to perfom Backup Exec server-side deduplication if it is supported» (siehe Abbildung).

Veritas-Backup-Exec-System bietet verschiedene Optionen für die Duplizierung von Daten. Das heißt, dass es bereits in der Phase der Planung einer Datensicherung wichtig ist, alle Nuancen sorgfältig zu überlegen und über eigen Infrastruktur einen klaren Überblick zu haben, um alle Schwächen zu verstehen. Alle diese Punkte müssen für eine optimale und effiziente Nutzung der Ressourcen berücksichtigt werden, da das zu erheblichen Budgeteinsparungen und einer Steigerung der Geschwindigkeit der Datensicherung führen kann.

Alle im Artikel verwendeten Informationen stammen aus offiziellen Quellen:
Backup Exec 20.3 Best Practices
https://www.emc.com/corporate/glossary/data-deduplication.htm
https://www.netapp.com/us/info/what-is-data-deduplication.aspx