Inhaltsverzeichnis:
Video: Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Training | Edureka 2024
Obwohl Hadoop am besten auf einem physischen Computer installiert ist, auf dem die Verarbeitung direkten Zugriff auf dedizierten Speicher und Netzwerk hat, verfügt Hadoop über alternative Bereitstellungen… Und obwohl sie weniger effizient sind als die dedizierte Hardware, bieten sich in bestimmten Fällen Alternativen an.
Virtualisierte Server
Ein wichtiger Trend in IT-Zentren im letzten Jahrzehnt war die Virtualisierung, bei der ein großer Server mehrere "virtuelle Maschinen" hosten kann, die wie einzelne Maschinen aussehen und sich verhalten. Anstelle von dedizierter Hardware wird der gesamte Satz von Anwendungen und Repositorys einer Organisation auf virtualisierter Hardware bereitgestellt.
Dieser Ansatz hat viele Vorteile: Die Zentralisierung der IT vereinfacht die Wartung, IT-Investitionen werden durch weniger ungenutzte CPU-Zyklen maximiert und der gesamte Hardware-Footprint ist geringer, was zu niedrigeren Gesamtbetriebskosten führt.
Organisationen, in denen IT-Bereitstellungen vollständig virtualisiert sind, verlangen manchmal, dass jede neue Anwendung diesem Modell folgt. Obwohl Hadoop auf diese Weise bereitgestellt werden kann, im Wesentlichen als virtueller Cluster (mit virtuellen Master-Knoten und virtuellen Slave-Knoten), leidet die Leistung, da der Speicher für die meisten virtualisierten Umgebungen SAN-basiert und nicht lokal angeschlossen ist.
Da Hadoop so konzipiert ist, dass es am besten funktioniert, wenn alle verfügbaren CPU-Kerne schnellen Zugriff auf sich unabhängig drehende Festplatten haben, entsteht ein Engpass, da alle Karten- und Reduzierungsaufgaben die Datenverarbeitung über die begrenzte Vernetzung beginnen. zwischen den CPUs und dem SAN. Da der Isolationsgrad zwischen virtualisierten Serverressourcen begrenzt ist (virtuelle Server teilen Ressourcen miteinander), können Hadoop-Workloads auch von anderen Aktivitäten betroffen sein.
Wenn die Leistung Ihres virtuellen Servers von der Auslastung eines anderen Servers beeinflusst wird, ist dies in IT-Kreisen tatsächlich als "verrauschtes Nachbarproblem" bekannt!
Virtualisierte Umgebungen können jedoch in einigen Fällen sehr nützlich sein. Wenn Ihr Unternehmen beispielsweise eine einmalige explorative Analyse eines großen Datensatzes durchführen muss, können Sie ganz einfach einen temporären Cluster in Ihrer virtualisierten Umgebung erstellen. Diese Methode ist oft ein schneller Weg, um interne Genehmigungen zu erhalten, als die bürokratischen Schwierigkeiten der Beschaffung neuer dedizierter Hardware zu ertragen.
Wenn Sie mit Hadoop experimentieren, führen Sie es oft auf Ihren Laptop-Computern über eine virtuelle Maschine (VM) aus. Hadoop ist in dieser Umgebung extrem langsam, aber wenn Sie kleine Datensätze verwenden, ist es ein wertvolles Lern- und Testwerkzeug.
Cloud-Implementierungen
Variationen von virtualisierten Umgebungen sind Cloud-Computing-Anbieter wie Amazon, Rackspace und IBM SoftLayer. Die meisten großen öffentlichen Cloud-Anbieter verfügen jetzt über MapReduce- oder Hadoop-Angebote. Auch hier ist ihre Leistung geringer als bei der Bereitstellung Ihres Clusters auf dedizierter Hardware, aber sie verbessert sich.
Cloud-Anbieter stellen Hadoop-optimierte Umgebungen zur Verfügung, in denen Slave-Knoten lokal angeschlossenen Speicher und dedizierte Netzwerke haben. Außerdem werden Hypervisoren viel effizienter, mit reduziertem Overhead und Latenz.
Betrachten Sie keine Cloud-Lösung für langfristige Anwendungen, da die Kosten für die Anmietung von Cloud-Computing-Ressourcen deutlich höher sind als für die Verwaltung und Wartung eines vergleichbaren Systems. Mit einem Cloud-Anbieter bezahlen Sie aus Bequemlichkeit und können den Overhead der Bereitstellungshardware entlasten. Die Cloud ist jedoch eine ideale Plattform für Tests, Schulungen und einmalige Datenverarbeitungsaufgaben.
Abgesehen von Leistungs- und Kostenüberlegungen haben Sie bei öffentlichen Cloud-Bereitstellungen regulatorische Überlegungen. Wenn Sie über sensible Daten verfügen, die entweder im Inland oder im Land gespeichert werden müssen, ist eine öffentliche Cloud-Bereitstellung keine Option. In solchen Fällen, in denen Sie die Vorteile einer Cloud-basierten Bereitstellung benötigen, ist eine private Cloud eine gute Option, sofern sie verfügbar ist.