Zuhause Persönliche Finanzen Komprimieren von Daten in Hadoop - Dummies

Komprimieren von Daten in Hadoop - Dummies

Video: Sqoop Import and Export data from RDMBS and HDFS 2025

Video: Sqoop Import and Export data from RDMBS and HDFS 2025
Anonim

verfügbar sind. Die riesigen Datenmengen, die in einer typischen Hadoop-Implementierung Realität sind, machen die Komprimierung zu einer Notwendigkeit. Die Datenkomprimierung spart auf jeden Fall viel Speicherplatz und beschleunigt die Datenübertragung in Ihrem Cluster. Es überrascht nicht, dass eine Reihe von verfügbaren Komprimierungsschemata, so genannte Codecs, zur Verfügung stehen.

In einer Hadoop-Bereitstellung handelt es sich (potenziell) um eine große Anzahl einzelner Slave-Knoten, von denen jeder eine Reihe großer Festplattenlaufwerke hat. Es ist nicht ungewöhnlich, dass ein einzelner Slave-Knoten mehr als 45 TB freien Speicherplatz für HDFS zur Verfügung hat.

Auch wenn Hadoop-Slave-Knoten kostengünstig sind, sind sie nicht kostenlos, und bei großen Datenmengen, die mit steigender Geschwindigkeit wachsen, ist die Komprimierung ein offensichtliches Werkzeug, um extreme Datenmengen.

Zunächst einige grundlegende Begriffe: Ein Codec, , der eine verkürzte Form von co mpressor / dec ompressor ist, ist Technologie (Software oder Hardware oder beide) zum Komprimieren und Dekomprimieren von Daten; Es ist die Implementierung eines Komprimierungs- / Dekomprimierungsalgorithmus.

Sie müssen wissen, dass einige Codecs eine so genannte splittbare Komprimierung unterstützen und dass Codecs sich sowohl in der Geschwindigkeit unterscheiden, mit der sie Daten komprimieren und dekomprimieren können, als auch in welchem ​​Grad sie komprimiert werden können.

Splittable compression ist ein wichtiges Konzept in einem Hadoop-Kontext. Die Funktionsweise von Hadoop besteht darin, dass Dateien geteilt werden, wenn sie größer als die Blockgröße der Datei sind, und einzelne Dateisplits können von verschiedenen Mapper parallel verarbeitet werden.

Bei den meisten Codecs können Textdateisplits nicht unabhängig von anderen Teilen derselben Datei dekomprimiert werden. Diese Codecs sind also nicht teilbar, daher ist die MapReduce-Verarbeitung auf einen einzelnen Mapper beschränkt.

Da die Datei nur als Ganzes dekomprimiert werden kann und nicht als einzelne Teile, die auf Splits basieren, kann es keine parallele Verarbeitung einer solchen Datei geben, und die Leistung kann einen großen Treffer erzielen, wenn ein Job auf einen einzelnen Mapper wartet. verarbeiten mehrere Datenblöcke, die nicht unabhängig voneinander dekomprimiert werden können.

Die teilbare Komprimierung ist nur ein Faktor für Textdateien. Bei Binärdateien komprimieren Hadoop-Komprimierungscodecs Daten in einem binär codierten Container, abhängig vom Dateityp (z. B. SequenceFile, Avro oder ProtocolBuffer).

Apropos Leistung: Die Komprimierung der Daten, die in Ihren Hadoop-Cluster geschrieben werden, verursacht Kosten (in Bezug auf Verarbeitungsressourcen und Zeit).

Bei Computern ist wie beim Leben nichts frei. Beim Komprimieren von Daten tauschen Sie Verarbeitungszyklen für Speicherplatz aus. Und wenn diese Daten gelesen werden, gibt es auch Kosten für das Dekomprimieren der Daten. Achten Sie darauf, die Vorteile der Speicherersparnis gegen den zusätzlichen Leistungsaufwand abzuwägen.

Wenn die Eingabedatei zu einem MapReduce-Job komprimierte Daten enthält, wird die zum Lesen dieser Daten aus HDFS benötigte Zeit reduziert und die Jobleistung verbessert. Die Eingabedaten werden automatisch entpackt, wenn sie von MapReduce gelesen werden.

Die Eingabe-Dateinamenerweiterung bestimmt, welcher unterstützte Codec verwendet wird, um die Daten automatisch zu dekomprimieren. Beispiel: a. Die Erweiterung gz identifiziert die Datei als gzip-komprimierte Datei.

Es kann auch nützlich sein, die Zwischenausgabe der Map-Phase im MapReduce-Verarbeitungsfluss zu komprimieren. Da die Ausgabe der Kartenfunktion auf die Festplatte geschrieben und über das Netzwerk an die Reduzierungsaufgaben gesendet wird, kann die Komprimierung der Ausgabe zu erheblichen Leistungsverbesserungen führen.

Und wenn Sie die MapReduce-Ausgabe als Verlaufsdateien für zukünftige Verwendung speichern möchten, kann die Komprimierung dieser Daten den Platzbedarf in HDFS erheblich reduzieren.

Es gibt viele verschiedene Kompressionsalgorithmen und -werkzeuge, deren Eigenschaften und Stärken variieren. Der häufigste Kompromiss besteht zwischen Komprimierungsraten (dem Grad, zu dem eine Datei komprimiert wird) und Komprimierungs- / Dekomprimierungsgeschwindigkeiten. Das Hadoop-Framework unterstützt mehrere Codecs. Das Framework komprimiert und dekomprimiert die meisten Eingabe- und Ausgabedateiformate transparent.

Die folgende Liste enthält einige allgemeine Codecs, die vom Hadoop-Framework unterstützt werden. Achten Sie darauf, den Codec auszuwählen, der den Anforderungen Ihres speziellen Anwendungsfalls am ehesten entspricht (zum Beispiel bei Workloads, bei denen die Geschwindigkeit der Verarbeitung wichtig ist, wählen Sie einen Codec mit hohen Dekompressionsgeschwindigkeiten):

  • Gzip: Eine Komprimierung Das vom GNU-Projekt übernommene Dienstprogramm Gzip (kurz für GNU zip) generiert komprimierte Dateien mit einem. gz Erweiterung. Sie können den Befehl gunzip verwenden, um Dateien zu entpacken, die von einer Reihe von Komprimierungsprogrammen, einschließlich Gzip, erstellt wurden.

  • Bzip2: Aus Usability-Sicht sind Bzip2 und Gzip ähnlich. Bzip2 erzeugt ein besseres Komprimierungsverhältnis als Gzip, aber es ist viel langsamer. In der Tat ist Bzip2 von allen verfügbaren Komprimierungscodecs in Hadoop mit Abstand am langsamsten.

    Wenn Sie ein Archiv einrichten, das Sie selten abfragen müssen und das Platzangebot sehr hoch ist, dann wäre Bzip2 vielleicht eine Überlegung wert.

  • Snappy: Der Snappy-Codec von Google bietet bescheidene Kompressionsraten, aber schnelle Komprimierungs- und Dekompressionsgeschwindigkeiten. (In der Tat hat es die schnellsten Dekompressionsgeschwindigkeiten, was es sehr wünschenswert für Datensätze macht, die wahrscheinlich häufig abgefragt werden.)

    Der Snappy-Codec ist in Hadoop Common integriert, einer Reihe von allgemeinen Hilfsprogrammen, die andere Hadoop-Teilprojekte unterstützen… Sie können Snappy als Add-on für neuere Versionen von Hadoop verwenden, die noch keine Snappy-Codec-Unterstützung bieten.

  • LZO: Ähnlich wie Snappy liefert LZO (Abkürzung für Lempel-Ziv-Oberhumer, das Trio von Informatikern, das den Algorithmus entwickelt hat) bescheidene Kompressionsraten, aber schnelle Kompressions- und Dekompressionsgeschwindigkeiten. LZO ist unter der GNU Public License (GPL) lizenziert.

    LZO unterstützt die spaltbare Komprimierung, die die parallele Verarbeitung komprimierter Textdateisplits durch Ihre MapReduce-Jobs ermöglicht. LZO muss beim Komprimieren einer Datei einen Index erstellen, da bei Komprimierungsblöcken mit variabler Länge ein Index erforderlich ist, um dem Mapper mitzuteilen, wo er die komprimierte Datei sicher teilen kann. LZO ist nur dann wirklich wünschenswert, wenn Sie Textdateien komprimieren müssen.

Hadoop-Codecs

Codec Dateierweiterung Teilbar? Komprimierungsgrad Komprimierungsgeschwindigkeit
Gzip . gz Nein Mittel Mittel
Bzip2 . bz2 Ja Hoch Langsam
Bissig . bissig Nein Mittel Schnell
LZO . lzo Nein, sofern nicht indiziert Mittel Schnell

Alle Komprimierungsalgorithmen müssen Kompromisse zwischen dem Grad der Komprimierung und der Geschwindigkeit der Komprimierung eingehen, die sie erreichen können. Die aufgeführten Codecs geben Ihnen eine gewisse Kontrolle darüber, wie das Verhältnis zwischen Komprimierungsrate und Geschwindigkeit bei der Komprimierung sein sollte.

Mit Gzip können Sie beispielsweise die Geschwindigkeit der Komprimierung regulieren, indem Sie eine negative ganze Zahl (oder ein Schlüsselwort) angeben, wobei -1 die schnellste Komprimierungsstufe angibt und -9 die langsamste Komprimierungsstufe angibt. Die Standardkomprimierungsstufe ist -6.

Komprimieren von Daten in Hadoop - Dummies

Die Wahl des Herausgebers

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Listing-Vereinbarungen werden auf der Immobilien abgedeckt werden Lizenzprüfung. Eine Listungsvereinbarung stellt eine Agenturbeziehung zwischen einem Agenten und einem Grundstücksverkäufer her. Der Vertreter verpflichtet sich, den Verkäufer bei der Vermarktung der Immobilie zu vertreten. Hier sind die Namen und Beschreibungen der vier Arten von Listing-Vereinbarungen in der Reihenfolge, in der sie sind ...

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Bevor Sie Ihre Immobilienlizenz nehmen Es ist wichtig, dass Sie den Unterschied zwischen ähnlich klingenden Begriffen verstehen. Die folgenden Immobilienbegriffe sind am häufigsten verwirrt; Holen Sie sich diese auswendig und Sie sind auf dem Weg zu mehr richtigen Antworten. Eigentumswohnung / Genossenschaft: Ein Eigentümer einer Eigentumswohnung besitzt tatsächlich Immobilien. Dieser Besitz ist in der Regel der Luftraum ...

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Die Immobilienlizenz Prüfung wird Fragen zu Hypotheken und Kreditgebern. Ein primärer Kreditgeber hat zwei Überlegungen, wenn er einen Kredit für den Kauf oder die Refinanzierung von Immobilien vergibt: den Wert der Immobilie und die Fähigkeit des Kreditnehmers, die Schulden zu tilgen. Bei der Überprüfung des Wertes der Immobilie, ...

Die Wahl des Herausgebers

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

Die Gesetze von Physik beeinflusst alle Arten von alltäglichen Aktivitäten, vom Autofahren bis zum Baseballspiel. Es überrascht daher nicht, dass sich einige Fragen zum GED Science-Test mit Konzepten wie Arbeit, Bewegung und Kraft befassen. In den folgenden Übungsfragen müssen Sie sowohl Theorie als auch gesunden Menschenverstand anwenden, um ...

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

Zu den Begründungen Durch die Sprachabteilung der GED können Sie gebeten werden, Fragen zu einer technischen Passage zu beantworten. Dies könnte Anweisungen zur Fertigstellung enthalten, wie die folgenden. Die Fragen in diesem Artikel beziehen sich auf den folgenden Auszug aus Russell Harts Fotografie für Dummies, 2. Auflage (Wiley). Was ist das Geheimnis für ...?

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

Irgendwann während des Science-Teils der GEE-Test, werden Sie gebeten, eine kurze Antwort zu verfassen. Sie werden eine Passage erhalten und eine Frage stellen, auf die Sie antworten müssen. Machen Sie Ihre Antwort klar und prägnant. Kurzer Antwortdurchgang Jeder kennt Cheddar-Käse. Leute setzen ...

Die Wahl des Herausgebers

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Selbstzweifel und schlechte Selbstwertschätzung scheinen Hand in Hand mit dem Menschsein zu gehen. Selbst wenn Sie im Allgemeinen gesund und ein gutes Selbstwertgefühl haben, haben Sie wahrscheinlich Zeiten in Ihrem Leben, an denen Sie sich unwohl fühlen und Gedanken und Gedanken über sich selbst verunglimpfen. Um zu helfen, halten Sie diesen Spickzettel, damit Sie ein paar Tipps und Hinweise haben ...

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Atypische Antipsychotika (atypische Neuroleptika oder Antipsychotika der zweiten Generation) ursprünglich formuliert, um Psychose bei Schizophrenie zu behandeln, aber diese Klasse von Medikamenten hat sich auch als wirksam bei der Verringerung der Manie und Augmentierung Antidepressiva Behandlung erwiesen. Die atypische oder zweite Generation stammt aus der Tatsache, dass diese neuere Art von Antipsychotika anders funktioniert als der ältere Standard oder Neuroleptika der ersten Generation, ...

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Sie möchten mehr darüber erfahren, wie Sie Ihre Angst mit Achtsamkeit? Sieh dir den Spickzettel an und entdecke die häufigsten Ursachen von Angstzuständen. Versuchen Sie eine kurze Achtsamkeitsübung, die Ihrer Angst helfen kann. Erkunde Wege, wie du deine ängstlichen Gedanken achtsam handhaben kannst. Finden Sie einfache Möglichkeiten heraus, jeden Tag aufmerksam zu sein. Dieser Spickzettel ...