Video: Digitalisierung - Chance und Verantwortung zugleich // Alexander Müller 2024
Ein schnellerer Computer allein reicht nicht aus, um das richtige Leistungsniveau für die Verarbeitung großer Datenmengen zu gewährleisten. Sie müssen in der Lage sein, Komponenten Ihres Big Data-Services über eine Reihe von Knoten zu verteilen. Beim verteilten Rechnen ist ein Knoten ein Element, das in einem Cluster von Systemen oder in einem Rack enthalten ist.
Ein Knoten enthält normalerweise CPU, Arbeitsspeicher und eine Art Festplatte. Ein Knoten kann jedoch auch eine Blade-CPU und ein Speicher sein, die auf einen nahe gelegenen Speicher innerhalb eines Racks angewiesen sind.
In einer Big-Data-Umgebung sind diese Knoten normalerweise gruppiert, um Skalierung zu ermöglichen. Beispielsweise könnten Sie mit einer Big Data-Analyse beginnen und weitere Datenquellen hinzufügen. Um dem Wachstum gerecht zu werden, fügt eine Organisation einfach mehr Knoten zu einem Cluster hinzu, damit sie sich an wachsende Anforderungen anpassen kann.
Es reicht jedoch nicht aus, einfach die Anzahl der Knoten im Cluster zu erweitern. Vielmehr ist es wichtig, einen Teil der Big Data-Analyse an verschiedene physische Umgebungen senden zu können. Wohin Sie diese Aufgaben senden und wie Sie sie verwalten, macht den Unterschied zwischen Erfolg und Misserfolg aus.
In einigen komplexen Situationen können Sie viele verschiedene Algorithmen parallel ausführen, auch innerhalb desselben Clusters, um die erforderliche Analysedauer zu erreichen. Warum sollten Sie verschiedene Big-Data-Algorithmen parallel im gleichen Rack ausführen? Je näher die Verteilungen der Funktionen liegen, desto schneller können sie ausgeführt werden.
Obwohl es möglich ist, Big Data-Analysen über Netzwerke hinweg zu verteilen, um die verfügbare Kapazität zu nutzen, müssen Sie diese Art der Verteilung auf Basis von Performance-Anforderungen durchführen. In einigen Situationen tritt die Verarbeitungsgeschwindigkeit in den Hintergrund. In anderen Situationen ist es jedoch erforderlich, schnell Ergebnisse zu erzielen. In dieser Situation möchten Sie sicherstellen, dass sich die Netzwerkfunktionen in unmittelbarer Nähe zueinander befinden.
Im Allgemeinen muss die Big Data-Umgebung für die Art der Analyseaufgabe optimiert werden. Daher ist Skalierbarkeit der Dreh- und Angelpunkt dafür, dass Big Data erfolgreich funktioniert. Obwohl es theoretisch möglich wäre, eine große Datenumgebung in einer einzigen großen Umgebung zu betreiben, ist dies nicht praktikabel.
Um die Anforderungen an Skalierbarkeit in Big Data zu verstehen, muss man sich nur die Cloud-Skalierbarkeit ansehen und sowohl die Anforderungen als auch den Ansatz verstehen. Wie beim Cloud Computing erfordern Big Data die Einbindung von schnellen Netzwerken und kostengünstigen Hardware-Clustern, die in Racks kombiniert werden können, um die Leistung zu steigern. Diese Cluster werden von einer Softwareautomatisierung unterstützt, die dynamische Skalierung und Lastverteilung ermöglicht.
Das Design und die Implementierungen von MapReduce sind hervorragende Beispiele dafür, wie verteiltes Rechnen Big Data operabel sichtbar und erschwinglich machen kann. Im Grunde genommen befinden sich Unternehmen an einem der einzigartigen Wendepunkte im Computing, wo Technologiekonzepte zur richtigen Zeit zusammenkommen, um die richtigen Probleme zu lösen. Die Kombination von verteiltem Computing, verbesserten Hardwaresystemen und praktischen Lösungen wie MapReduce und Hadoop verändert das Datenmanagement auf grundlegende Weise.