Inhaltsverzeichnis:
- Der Big Data Hypervisor
- Abstraktion und Big-Data-Virtualisierung
- Implementieren der Virtualisierung für die Arbeit mit Big Data
Video: The Software-Defined Data Center 2024
Virtualisierung trennt Ressourcen und Dienste vom zugrunde liegenden physische Bereitstellungsumgebung, mit der Sie viele virtuelle Systeme in einem einzigen physischen System erstellen können. Einer der Hauptgründe, warum Unternehmen Virtualisierung implementiert haben, ist die Verbesserung der Leistung und Effizienz der Verarbeitung einer Vielzahl von Workloads.
Der Big Data Hypervisor
In einer idealen Welt möchten Sie sich keine Gedanken über den zugrundeliegenden Betriebssystem und die physische Hardware. Ein Hypervisor ist die Technologie, die dafür verantwortlich ist, dass die gemeinsame Nutzung von Ressourcen in einer geordneten und wiederholbaren Weise erfolgt.
Der Hypervisor befindet sich auf den niedrigsten Ebenen der Hardwareumgebung und verwendet eine dünne Codeschicht, um eine dynamische Ressourcenfreigabe zu ermöglichen. Der Hypervisor lässt es so aussehen, als hätte jedes Betriebssystem die physischen Ressourcen für sich allein.
In der Welt der Big Data müssen Sie möglicherweise viele verschiedene Betriebsumgebungen unterstützen. Der Hypervisor wird zum idealen Bereitstellungsmechanismus für die Technologiekomponenten des Big Data-Stacks. Mit dem Hypervisor können Sie dieselbe Anwendung auf vielen Systemen anzeigen, ohne diese Anwendung physisch auf jedes System kopieren zu müssen.
Als zusätzlichen Vorteil kann es aufgrund der Hypervisor-Architektur verschiedene Betriebssysteme laden, als ob es nur eine andere Anwendung wäre. Der Hypervisor ist also ein sehr praktischer Weg, um Dinge schnell und effizient zu virtualisieren.
Die Gastbetriebssysteme sind die Betriebssysteme, die auf den virtuellen Maschinen ausgeführt werden. Mithilfe der Virtualisierungstechnologie können Sie den Hypervisor so einrichten, dass die Ressourcen des physischen Computers aufgeteilt werden. Ressourcen können beispielsweise zwischen zwei Gastbetriebssystemen auf 50/50 oder 80/20 aufgeteilt werden.
Das Schöne an diesem Arrangement ist, dass der Hypervisor das Schwergewicht hebt. Dem Gastbetriebssystem ist es egal, dass es in einer virtuellen Partition läuft. es denkt, es hat einen Computer ganz für sich.
Es gibt zwei Arten von Hypervisoren:
-
Typ 1 Hypervisoren laufen direkt auf der Hardware-Plattform. Sie erzielen eine höhere Effizienz, da sie direkt auf der Plattform laufen.
-
Typ-2-Hypervisoren werden auf dem Hostbetriebssystem ausgeführt. Sie werden häufig verwendet, wenn ein Bedarf besteht, eine breite Palette von E / A-Geräten zu unterstützen.
Abstraktion und Big-Data-Virtualisierung
Damit IT-Ressourcen und -Dienste virtualisiert werden können, werden sie von der zugrunde liegenden physischen Bereitstellungsumgebung getrennt.Der Begriff für diesen Akt der Trennung wird als Abstraktion bezeichnet. Abstraktion ist ein Schlüsselbegriff bei Big Data. MapReduce und Hadoop sind verteilte Computerumgebungen, in denen alles abstrahiert ist. Das Detail wird abstrahiert, so dass der Entwickler oder Analytiker sich nicht damit beschäftigen muss, wo sich die Datenelemente befinden.
Abstraktion minimiert die Komplexität von etwas, indem sie die Details verdeckt und nur die relevanten Informationen bereitstellt. Wenn Sie zum Beispiel jemanden aufnehmen würden, den Sie noch nie getroffen haben, könnte er Ihnen sagen, wo er sich trifft und was er tragen wird. Er muss Ihnen nicht sagen, wo er geboren wurde, wie viel Geld er in der Bank hat, sein Geburtsdatum und so weiter.
Das ist die Idee mit der Abstraktion - es geht darum, eine High-Level-Spezifikation zu liefern, anstatt in viele Details darüber zu gehen, wie etwas funktioniert.
Implementieren der Virtualisierung für die Arbeit mit Big Data
Durch Virtualisierung wird Ihre IT-Umgebung intelligent genug, um Big Data-Analysen zu bewältigen. Durch die Optimierung aller Elemente Ihrer Infrastruktur, einschließlich Hardware, Software und Speicher, erhalten Sie die erforderliche Effizienz für die Verarbeitung und Verwaltung großer Mengen strukturierter und unstrukturierter Daten. Bei Big Data müssen Sie auf strukturierte und unstrukturierte Daten in einer verteilten Umgebung zugreifen, diese verwalten und analysieren.
Große Daten gehen von der Verteilung aus. In der Praxis funktioniert jede Art von MapReduce in einer virtualisierten Umgebung besser. Sie benötigen die Fähigkeit, Workloads basierend auf den Anforderungen für Rechenleistung und Speicher zu verschieben.
Mit der Virtualisierung können Sie größere Probleme angehen, die noch nicht erfasst wurden. Sie wissen vielleicht nicht im Voraus, wie schnell Sie skalieren müssen.
Mit der Virtualisierung können Sie eine Vielzahl von betriebsbereiten Big Data-Stores unterstützen. Beispielsweise kann eine Diagrammdatenbank als ein Bild hochgefahren werden.
Der direkteste Vorteil der Virtualisierung besteht darin sicherzustellen, dass MapReduce-Module besser funktionieren. Die Virtualisierung führt zu einer besseren Skalierung und Leistung von MapReduce. Jede der Map- und Reduce-Aufgaben muss unabhängig voneinander ausgeführt werden. Wenn das MapReduce-Modul parallelisiert und für die Ausführung in einer virtuellen Umgebung konfiguriert ist, können Sie den Verwaltungsaufwand reduzieren und Erweiterungen und Kontraktionen in den Aufgaben-Workloads ermöglichen.
MapReduce selbst ist von Natur aus parallel und verteilt. Durch die Kapselung der MapReduce-Engine in einem virtuellen Container können Sie das ausführen, was Sie brauchen, wann immer Sie es benötigen. Mit der Virtualisierung erhöhen Sie die Auslastung der bereits bezahlten Assets, indem Sie sie in generische Ressourcenpools verwandeln.