Zuhause Persönliche Finanzen Hadoop Distributed File System (HDFS) für Big Data Projekte - Dummies

Hadoop Distributed File System (HDFS) für Big Data Projekte - Dummies

Inhaltsverzeichnis:

Video: How to install Hadoop on Ubuntu single node cluster 2025

Video: How to install Hadoop on Ubuntu single node cluster 2025
Anonim

Das verteilte Dateisystem von Hadoop ist ein vielseitiger, flexibler und geclusterter Ansatz zum Verwalten von Dateien in einer Big Data-Umgebung. HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr handelt es sich um einen Datendienst, der einen einzigartigen Satz von Fähigkeiten bietet, die benötigt werden, wenn Datenvolumen und Geschwindigkeit hoch sind. Da die Daten nur einmal geschrieben und dann viele Male gelesen werden, ist HDFS eine ausgezeichnete Wahl für die Unterstützung von Big-Data-Analysen, und nicht das ständige Lesen und Schreiben von anderen Dateisystemen.

Big Data NameNodes

HDFS funktioniert, indem große Dateien in kleinere Teile zerlegt werden, die als Blöcke bezeichnet werden. Die Blöcke werden auf Datenknoten gespeichert, und es liegt in der Verantwortung des Namensknotens, zu wissen, welche Blöcke auf welchen Datenknoten die vollständige Datei bilden. Der NameNode fungiert auch als "Verkehrspolizist" und verwaltet den gesamten Zugriff auf die Dateien.

Die vollständige Sammlung aller Dateien im Cluster wird manchmal als Namespace des Dateisystems bezeichnet. Es ist die Aufgabe des NameNodes, diesen Namespace zu verwalten.

Obwohl eine starke Beziehung zwischen dem NameNode und den Datenknoten besteht, arbeiten sie "lose gekoppelt". Dadurch können sich die Cluster-Elemente dynamisch verhalten und Server hinzufügen, wenn der Bedarf steigt. In einer typischen Konfiguration finden Sie einen NameNode und möglicherweise einen Datenknoten, der auf einem physischen Server im Rack ausgeführt wird. Andere Server führen nur Datenknoten aus.

Die Datenknoten kommunizieren untereinander, so dass sie während normaler Dateisystemoperationen zusammenarbeiten können. Dies ist notwendig, da Blöcke für eine Datei wahrscheinlich auf mehreren Datenknoten gespeichert werden. Da der NameNode für den korrekten Betrieb des Clusters so wichtig ist, kann und sollte er repliziert werden, um einen Single-Point-Fehler zu vermeiden.

Große Datenknoten

Datenknoten sind nicht intelligent, aber sie sind robust. Innerhalb des HDFS-Clusters werden Datenblöcke über mehrere Datenknoten hinweg repliziert und der Zugriff wird vom NameNode verwaltet. Der Replikationsmechanismus ist auf optimale Effizienz ausgelegt, wenn alle Knoten des Clusters in einem Rack zusammengefasst sind. In der Tat verwendet der NameNode eine "Rack-ID", um die Datenknoten im Cluster zu verfolgen.

Datenknoten stellen auch "Heartbeat" -Nachrichten bereit, um die Konnektivität zwischen dem NameNode und den Datenknoten zu erkennen und sicherzustellen. Wenn kein Heartbeat mehr vorhanden ist, hebt der NameNode die Zuordnung des Datenknotens vom Cluster auf und arbeitet so weiter, als ob nichts passiert wäre. Wenn der Heartbeat zurückkehrt, wird er dem Cluster transparent in Bezug auf den Benutzer oder die Anwendung hinzugefügt.

Die Datenintegrität ist ein Schlüsselmerkmal. HDFS unterstützt eine Reihe von Funktionen für die Datenintegrität. Wenn Sie erwarten, dass Dateien in Blöcke aufgeteilt werden und dann auf verschiedene Server im Cluster verteilt werden, können sich Schwankungen im Betrieb eines Elements auf die Datenintegrität auswirken. HDFS verwendet Transaktionsprotokolle und Prüfsummenvalidierung, um die Integrität im gesamten Cluster sicherzustellen.

Transaktionsprotokolle protokollieren jeden Vorgang und können das Dateisystem überprüfen oder wiederherstellen, sollte etwas nicht geschehen.

Checksum-Validierungen werden verwendet, um den Inhalt von Dateien in HDFS zu garantieren. Wenn ein Client eine Datei anfordert, kann er den Inhalt überprüfen, indem er seine Prüfsumme überprüft. Wenn die Prüfsumme übereinstimmt, kann die Dateioperation fortgesetzt werden. Wenn nicht, wird ein Fehler gemeldet. Checksummen werden ausgeblendet, um Manipulationen zu vermeiden.

Datenknoten verwenden lokale Festplatten auf dem Commodity-Server für die Persistenz. Alle Datenblöcke werden vor allem aus Performance-Gründen lokal gespeichert. Datenblöcke werden über mehrere Datenknoten hinweg repliziert, sodass der Ausfall eines Servers nicht notwendigerweise eine Datei beschädigt. Der Replikationsgrad, die Anzahl der Datenknoten und der HDFS-Namespace werden bei der Implementierung des Clusters festgelegt.

HDFS für Big Data

HDFS behebt große Datenherausforderungen, indem Dateien in eine verwandte Sammlung kleinerer Blöcke aufgeteilt werden. Diese Blöcke sind auf die Datenknoten im HDFS-Cluster verteilt und werden vom NameNode verwaltet. Die Blockgrößen sind konfigurierbar und betragen normalerweise 128 Megabyte (MB) oder 256 MB, was bedeutet, dass eine 1-GB-Datei acht 128 MB-Blöcke für ihre grundlegenden Speicheranforderungen verbraucht.

HDFS ist robust, sodass diese Blöcke im Falle eines Serverfehlers im gesamten Cluster repliziert werden. Wie behält HDFS alle diese Stücke im Auge? Die kurze Antwort ist Dateisystem Metadaten .

Metadaten sind definiert als "Daten über Daten. "Stellen Sie sich HDFS-Metadaten als Vorlage für eine detaillierte Beschreibung der folgenden Punkte vor:

  • Wann wurde die Datei erstellt, darauf zugegriffen, geändert, gelöscht usw.

  • Wo die Blöcke der Datei im Cluster gespeichert sind < Wer hat die Rechte zum Anzeigen oder Ändern der Datei

  • Wie viele Dateien sind im Cluster gespeichert

  • Wie viele Datenknoten im Cluster vorhanden sind

  • Der Speicherort des Transaktionslogs für den Cluster

  • HDFS Metadaten werden im NameNode gespeichert, und während der Cluster aktiv ist, werden alle Metadaten in den physischen Speicher des NameNode-Servers geladen. Je größer der Cluster ist, desto größer ist der Metadaten-Footprint.

Was genau macht ein Blockserver? Überprüfen Sie die folgende Liste:

Speichert die Datenblöcke im lokalen Dateisystem des Servers. HDFS ist auf vielen verschiedenen Betriebssystemen verfügbar und verhält sich unter Windows, Mac OS oder Linux genauso.

  • Speichert die Metadaten eines Blocks im lokalen Dateisystem basierend auf der Metadatenvorlage im NameNode.

  • Führt periodische Validierungen von Dateiprüfsummen durch.

  • Sendet dem NameNode regelmäßige Berichte darüber, welche Blöcke für Dateivorgänge verfügbar sind.

  • Stellt auf Anfrage Metadaten und Daten für Clients bereit. HDFS unterstützt den direkten Zugriff auf die Datenknoten von Clientanwendungsprogrammen.

  • Leitet Daten basierend auf einem "Pipelining" -Modell an andere Datenknoten weiter.

  • Die Blockplatzierung auf den Datenknoten ist für die Datenreplikation und die Unterstützung für das Pipelining von Daten von entscheidender Bedeutung. HDFS speichert eine Kopie jedes Blocks lokal. HDFS nimmt die Datenreplizierung und die Ausfallsicherheit ernst.

Hadoop Distributed File System (HDFS) für Big Data Projekte - Dummies

Die Wahl des Herausgebers

Wie man die Socialcast Mobile App benutzt - dummies

Wie man die Socialcast Mobile App benutzt - dummies

Sogar die stoischste Anwendung wie Microsoft Excel hat ein begleitendes Smartphone-App, natürlich hat Socialcast auch eine. Wenn es so wäre, wäre es nicht wirklich eine Ausrede zu sagen, dass Socialcast nicht sehr sozial wäre, wenn du es nicht mit in die große Welt außerhalb deiner Zelle mitnehmen könntest. Die mobile App ...

Wie man das App Verzeichnis von Yammer benutzt - dummies

Wie man das App Verzeichnis von Yammer benutzt - dummies

Sie haben vielleicht gehört: "Es gibt eine App dafür. "Nun, das ist der Fall bei Yammer, der als einzige Ressource für die Vernetzung am Arbeitsplatz funktioniert. Aber Yammer bietet Ihnen auch eine Menge Apps, mit denen Sie Ihr Arbeitsleben noch einfacher gestalten können. Es gibt zwei Möglichkeiten, auf das App-Verzeichnis zuzugreifen: Option ...

So ​​verwenden Sie die Yammer-Analysetools - Dummies

So ​​verwenden Sie die Yammer-Analysetools - Dummies

Yammer rühmt sich damit als "führendes soziales Unternehmensnetzwerk für Unternehmen" um die Arbeit intelligenter und schneller zu erledigen. "Woher weißt du, ob das wahr ist? Ein guter Weg, um zu sehen, wie es für Sie funktioniert, ist die Analyse von Yammer. Wie greifen Sie auf diese großartigen Tools zu? Es ist einfach. Log ...

Die Wahl des Herausgebers

Die Evolution von Distributed Computing für Big Data - Dummies

Die Evolution von Distributed Computing für Big Data - Dummies

Hinter allen wichtigen Trends des letzten Jahrzehnts, einschließlich Serviceorientierung, Cloud Computing, Virtualisierung und Big Data, ist eine grundlegende Technologie namens Distributed Computing. Einfach gesagt, ohne die Verteilung von Datenverarbeitung wäre keiner dieser Fortschritte möglich. Distributed Computing ist eine Technik, mit der einzelne Computer über geografische Gebiete hinweg miteinander vernetzt werden können, so als ob ...

Drei Anbieter mit Data Mining-Produkten - Dummies

Drei Anbieter mit Data Mining-Produkten - Dummies

Es gibt mehrere Anbieter, die Data-Mining-Produkte verkaufen, die Sie vielleicht in Betracht ziehen möchten. Verwenden Sie mit Ihrem Data Warehouse. Hier sind drei, die eine Überlegung wert sind. Microsoft Microsoft hat das serverseitige Data Mining mit Microsoft SQL Server 2005 eingeführt. Obwohl es nicht so ausgereift und ausgeklügelt wie SAS und SPSS ist, hat Microsoft im Laufe der Zeit seine Fähigkeit bewiesen ...

Grundlagen der Big-Data-Integration - Dummies

Grundlagen der Big-Data-Integration - Dummies

Die fundamentalen Elemente der Big-Data-Plattform verwalten Daten auf neue Weise verglichen mit der traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten. Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra, ...

Die Wahl des Herausgebers

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

Die meisten modernen Smartphones sind Wi-Fi-fähig. In ein lokales Netzwerk können Sie Spotify-Tracks mithilfe von Wi-Fi auf Ihr Telefon streamen. Sie können Spotify Mobile zu Hause und über Wi-Fi-Netzwerke in Hotels und Cafés problemlos nutzen - Sie müssen nur sicherstellen, dass Sie angemeldet und verbunden sind. ...

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert, kann Auswirkungen auf den Festplattenspeicher Ihres Computers haben. Internetverbindung. Spotify funktioniert anders als viele andere Online-Musikdienste, weil es auf mehrere Arten angewiesen ist, um Ihnen reibungslos Musik ohne Verzögerungen zu liefern. In Computing-Sprechen, das Maß der Verzögerung zwischen Anfordern eines Songs und Hören es ...

So ​​erreichen Sie Spotify Support - Dummies

So ​​erreichen Sie Spotify Support - Dummies

Es kann vorkommen, dass Sie eine kleine Hilfe beim Navigieren und Verwenden von Spotify benötigen von deinen Spotify Freunden. Sie können jederzeit Support @ spotify per E-Mail senden. com mit Ihrer Frage oder melden Sie sich bei Twitter an und senden Sie einen Tweet an @spotify. Stellen Sie sicher, dass Sie alle Informationen einschließen, die dem Support-Team helfen könnten, einschließlich Ihres Benutzernamens, damit sie ...