Zuhause Persönliche Finanzen Hadoop Distributed File System (HDFS) für Big Data Projekte - Dummies

Hadoop Distributed File System (HDFS) für Big Data Projekte - Dummies

Inhaltsverzeichnis:

Video: How to install Hadoop on Ubuntu single node cluster 2024

Video: How to install Hadoop on Ubuntu single node cluster 2024
Anonim

Das verteilte Dateisystem von Hadoop ist ein vielseitiger, flexibler und geclusterter Ansatz zum Verwalten von Dateien in einer Big Data-Umgebung. HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr handelt es sich um einen Datendienst, der einen einzigartigen Satz von Fähigkeiten bietet, die benötigt werden, wenn Datenvolumen und Geschwindigkeit hoch sind. Da die Daten nur einmal geschrieben und dann viele Male gelesen werden, ist HDFS eine ausgezeichnete Wahl für die Unterstützung von Big-Data-Analysen, und nicht das ständige Lesen und Schreiben von anderen Dateisystemen.

Big Data NameNodes

HDFS funktioniert, indem große Dateien in kleinere Teile zerlegt werden, die als Blöcke bezeichnet werden. Die Blöcke werden auf Datenknoten gespeichert, und es liegt in der Verantwortung des Namensknotens, zu wissen, welche Blöcke auf welchen Datenknoten die vollständige Datei bilden. Der NameNode fungiert auch als "Verkehrspolizist" und verwaltet den gesamten Zugriff auf die Dateien.

Die vollständige Sammlung aller Dateien im Cluster wird manchmal als Namespace des Dateisystems bezeichnet. Es ist die Aufgabe des NameNodes, diesen Namespace zu verwalten.

Obwohl eine starke Beziehung zwischen dem NameNode und den Datenknoten besteht, arbeiten sie "lose gekoppelt". Dadurch können sich die Cluster-Elemente dynamisch verhalten und Server hinzufügen, wenn der Bedarf steigt. In einer typischen Konfiguration finden Sie einen NameNode und möglicherweise einen Datenknoten, der auf einem physischen Server im Rack ausgeführt wird. Andere Server führen nur Datenknoten aus.

Die Datenknoten kommunizieren untereinander, so dass sie während normaler Dateisystemoperationen zusammenarbeiten können. Dies ist notwendig, da Blöcke für eine Datei wahrscheinlich auf mehreren Datenknoten gespeichert werden. Da der NameNode für den korrekten Betrieb des Clusters so wichtig ist, kann und sollte er repliziert werden, um einen Single-Point-Fehler zu vermeiden.

Große Datenknoten

Datenknoten sind nicht intelligent, aber sie sind robust. Innerhalb des HDFS-Clusters werden Datenblöcke über mehrere Datenknoten hinweg repliziert und der Zugriff wird vom NameNode verwaltet. Der Replikationsmechanismus ist auf optimale Effizienz ausgelegt, wenn alle Knoten des Clusters in einem Rack zusammengefasst sind. In der Tat verwendet der NameNode eine "Rack-ID", um die Datenknoten im Cluster zu verfolgen.

Datenknoten stellen auch "Heartbeat" -Nachrichten bereit, um die Konnektivität zwischen dem NameNode und den Datenknoten zu erkennen und sicherzustellen. Wenn kein Heartbeat mehr vorhanden ist, hebt der NameNode die Zuordnung des Datenknotens vom Cluster auf und arbeitet so weiter, als ob nichts passiert wäre. Wenn der Heartbeat zurückkehrt, wird er dem Cluster transparent in Bezug auf den Benutzer oder die Anwendung hinzugefügt.

Die Datenintegrität ist ein Schlüsselmerkmal. HDFS unterstützt eine Reihe von Funktionen für die Datenintegrität. Wenn Sie erwarten, dass Dateien in Blöcke aufgeteilt werden und dann auf verschiedene Server im Cluster verteilt werden, können sich Schwankungen im Betrieb eines Elements auf die Datenintegrität auswirken. HDFS verwendet Transaktionsprotokolle und Prüfsummenvalidierung, um die Integrität im gesamten Cluster sicherzustellen.

Transaktionsprotokolle protokollieren jeden Vorgang und können das Dateisystem überprüfen oder wiederherstellen, sollte etwas nicht geschehen.

Checksum-Validierungen werden verwendet, um den Inhalt von Dateien in HDFS zu garantieren. Wenn ein Client eine Datei anfordert, kann er den Inhalt überprüfen, indem er seine Prüfsumme überprüft. Wenn die Prüfsumme übereinstimmt, kann die Dateioperation fortgesetzt werden. Wenn nicht, wird ein Fehler gemeldet. Checksummen werden ausgeblendet, um Manipulationen zu vermeiden.

Datenknoten verwenden lokale Festplatten auf dem Commodity-Server für die Persistenz. Alle Datenblöcke werden vor allem aus Performance-Gründen lokal gespeichert. Datenblöcke werden über mehrere Datenknoten hinweg repliziert, sodass der Ausfall eines Servers nicht notwendigerweise eine Datei beschädigt. Der Replikationsgrad, die Anzahl der Datenknoten und der HDFS-Namespace werden bei der Implementierung des Clusters festgelegt.

HDFS für Big Data

HDFS behebt große Datenherausforderungen, indem Dateien in eine verwandte Sammlung kleinerer Blöcke aufgeteilt werden. Diese Blöcke sind auf die Datenknoten im HDFS-Cluster verteilt und werden vom NameNode verwaltet. Die Blockgrößen sind konfigurierbar und betragen normalerweise 128 Megabyte (MB) oder 256 MB, was bedeutet, dass eine 1-GB-Datei acht 128 MB-Blöcke für ihre grundlegenden Speicheranforderungen verbraucht.

HDFS ist robust, sodass diese Blöcke im Falle eines Serverfehlers im gesamten Cluster repliziert werden. Wie behält HDFS alle diese Stücke im Auge? Die kurze Antwort ist Dateisystem Metadaten .

Metadaten sind definiert als "Daten über Daten. "Stellen Sie sich HDFS-Metadaten als Vorlage für eine detaillierte Beschreibung der folgenden Punkte vor:

  • Wann wurde die Datei erstellt, darauf zugegriffen, geändert, gelöscht usw.

  • Wo die Blöcke der Datei im Cluster gespeichert sind < Wer hat die Rechte zum Anzeigen oder Ändern der Datei

  • Wie viele Dateien sind im Cluster gespeichert

  • Wie viele Datenknoten im Cluster vorhanden sind

  • Der Speicherort des Transaktionslogs für den Cluster

  • HDFS Metadaten werden im NameNode gespeichert, und während der Cluster aktiv ist, werden alle Metadaten in den physischen Speicher des NameNode-Servers geladen. Je größer der Cluster ist, desto größer ist der Metadaten-Footprint.

Was genau macht ein Blockserver? Überprüfen Sie die folgende Liste:

Speichert die Datenblöcke im lokalen Dateisystem des Servers. HDFS ist auf vielen verschiedenen Betriebssystemen verfügbar und verhält sich unter Windows, Mac OS oder Linux genauso.

  • Speichert die Metadaten eines Blocks im lokalen Dateisystem basierend auf der Metadatenvorlage im NameNode.

  • Führt periodische Validierungen von Dateiprüfsummen durch.

  • Sendet dem NameNode regelmäßige Berichte darüber, welche Blöcke für Dateivorgänge verfügbar sind.

  • Stellt auf Anfrage Metadaten und Daten für Clients bereit. HDFS unterstützt den direkten Zugriff auf die Datenknoten von Clientanwendungsprogrammen.

  • Leitet Daten basierend auf einem "Pipelining" -Modell an andere Datenknoten weiter.

  • Die Blockplatzierung auf den Datenknoten ist für die Datenreplikation und die Unterstützung für das Pipelining von Daten von entscheidender Bedeutung. HDFS speichert eine Kopie jedes Blocks lokal. HDFS nimmt die Datenreplizierung und die Ausfallsicherheit ernst.

Hadoop Distributed File System (HDFS) für Big Data Projekte - Dummies

Die Wahl des Herausgebers

Optimierung sozialer Medien: Anpassung von Inhalten an Specialty Channels - Dummies

Optimierung sozialer Medien: Anpassung von Inhalten an Specialty Channels - Dummies

Eine der besten Möglichkeiten, um Zusätzliche Meilenzahl von Ihren Sozialmedieninhalt ist, sie umzupacken und sie auf verschiedenen Kanälen freizugeben. Wenn Sie einen Blogbeitrag haben und den Beitrag direkt über Social Sharing bewerben, können Sie diesen Blogpost in eine herunterladbare PDF-Datei umwandeln. Wenn die ...

Social-Media-Optimierung: SMART Marketing - Dummies

Social-Media-Optimierung: SMART Marketing - Dummies

Wenn Sie Ihre Social Media-Ziele definiert haben, haben Sie Ihr Ziel identifiziert Zielgruppe und fand heraus, wo sie auf Social-Media-Kanälen zu finden sind, nutzte die Daten aus Analyse-Programmen, um die optimale Zeit zu bestimmen, um in sozialen Medien aktiv zu sein, und eine umfassende Social-Media-Verhaltenspolitik setzen Sie sind bereit, zu bewegen ...

Social Media Optimierung: Was Sie über Semantic Markup wissen sollten - Dummies

Social Media Optimierung: Was Sie über Semantic Markup wissen sollten - Dummies

Wenn Sie möchten Um mit Ihrer Social-Media-Optimierungsstrategie wirklich erfolgreich zu sein, müssen Sie etwas über semantisches Markup wissen. Einfach gesagt ist semantisches Markup ein standardisierter Weg, um Code zu schreiben, der eine Webseite für dumme Maschinen wie Suchmaschinen leicht verständlich macht. Es ist eine Möglichkeit, den Inhalt einer Webseite mit Anmerkungen zu versehen ...

Die Wahl des Herausgebers

Online-Community-Manager sollten ihre Ausbildung ausweiten - Dummies

Online-Community-Manager sollten ihre Ausbildung ausweiten - Dummies

Haben Sie keine Angst, etwas Neues zu lernen. Dies kann bedeuten, dass Sie Artikel über Ihre Branche, die Marke und das Online-Community-Management lesen. Dies kann bedeuten, dass Sie nach Bildung suchen, die es Ihnen ermöglicht, Ihre Community besser zu betreiben. Es schadet nie, grundlegendes Web- oder Blog-Design zu kennen und auf dem neuesten Stand der Technik zu bleiben. Außerdem ...

Online-Community-Manager sollten mit Beispiel führen - Dummies

Online-Community-Manager sollten mit Beispiel führen - Dummies

Ihre Community orientiert sich an Ihnen. Wenn du schwörst und nistest, werden die Mitglieder wissen, dass dieses Verhalten in Ordnung ist. Wenn Sie aber jeden Morgen fröhlich grüßen, folgen sie Ihrem Beispiel. Sogar Leute, die von Drama und Negativität angezogen werden, werden sich entweder an der guten Miene beteiligen, oder sie werden so müde ...

Online Community-Manager Bleiben Sie auf dem neuesten Stand der Trends - dummies

Online Community-Manager Bleiben Sie auf dem neuesten Stand der Trends - dummies

Ob es sich um Ihre Online-Community handelt oder nicht müssen Sie sich der Marktentwicklung bewusst sein. Was kaufen Leute? Wie kommunizieren sie online? Geben sie mehr oder weniger Geld aus? Welche Lebensmittel, Gadgets oder Moden sind rein oder raus? Um auf dem neuesten Stand der Trends zu bleiben, sollten Sie wissen, was und was so ist.

Die Wahl des Herausgebers

Kennenlernen der Aufgabenleiste in Outlook 2007 - dummies

Kennenlernen der Aufgabenleiste in Outlook 2007 - dummies

Ausblick 2007 eine neue Funktion namens To-Do-Leiste, die alle Dinge, die Sie tun müssen, zusammenfasst und sie in einem Bereich auf der rechten Seite des Outlook-Bildschirms anzeigt. Das Ziel der To-Do-Leiste ist es, Ihnen mitzuteilen, was Sie auf einen Blick tun müssen, anstatt ...

ÄNdern der Größe einer Notiz in Outlook 2013 - Hinweise für Dummies

ÄNdern der Größe einer Notiz in Outlook 2013 - Hinweise für Dummies

In Outlook 2013 befolgen alle Regeln dass andere Windows-Boxen folgen, also wenn Sie ein alter Hase beim Verschieben und Ändern der Größe von Boxen in Windows sind, werden Sie in Ordnung sein. Wenn Sie mit Windows und Dialogfeldern noch nicht vertraut sind, machen Sie sich keine Sorgen - Notizen lassen sich genauso einfach in der Größe ändern wie zum Schreiben und Lesen. Ändern ...

Kennenlernen von Ansichten in Outlook 2007 - Dummys

Kennenlernen von Ansichten in Outlook 2007 - Dummys

In Outlook 2007 verfügt jedes Outlook-Modul über eine eigene Auswahl von Ansichten. Jede Art von Ansicht ist so organisiert, dass ein bestimmtes Merkmal Ihrer Informationen auf den ersten Blick sichtbar wird. Sie können die Art ändern, wie Sie eine Ansicht anzeigen, indem Sie sie sortieren, filtern oder gruppieren. Sie können mit Ansichten nicht falsch gehen, weil Sie ...