Zuhause Persönliche Finanzen Hadoop als Archivierungsdatenziel - Dummies

Hadoop als Archivierungsdatenziel - Dummies

Video: Webinar: „Enterprise Readiness mit Hadoop - Infrastrukturen für Big Data“ 2024

Video: Webinar: „Enterprise Readiness mit Hadoop - Infrastrukturen für Big Data“ 2024
Anonim

Die günstigen Kosten für die Speicherung von Hadoop und die Möglichkeit, Hadoop-Daten mit SQL abzufragen, machen Hadoop zum bevorzugten Ziel für Archivdaten. Dieser Anwendungsfall hat geringe Auswirkungen auf Ihre Organisation, da Sie mit der Erstellung Ihres Hadoop-Skill-Sets für Daten beginnen können, die nicht auf performance-missionskritischen Systemen gespeichert sind.

Außerdem müssen Sie nicht hart arbeiten, um an die Daten zu gelangen. (Da archivierte Daten normalerweise auf Systemen gespeichert werden, die wenig genutzt werden, ist es einfacher, auf Daten zuzugreifen, die auf Performance-Missions-kritischen Systemen wie Data Warehouses "im Rampenlicht" stehen.) Wenn Sie Hadoop bereits als Landeplatz verwenden Zone, Sie haben die Grundlage für Ihr Archiv! Sie behalten einfach das, was Sie archivieren wollen, und löschen das, was Sie nicht wollen.

Wenn Sie an die Landezone des Hadoop denken, erweitert das in der Abbildung gezeigte abfragbare Archiv den Wert von Hadoop und beginnt damit, Teile zu integrieren, die wahrscheinlich bereits in Ihrem Unternehmen vorhanden sind. Es ist ein großartiges Beispiel dafür, mit Hadoop Skaleneffekte und Kosteneinsparungen zu erzielen.

Hier verbindet die Archivkomponente die Landezone und das Data Warehouse. Die zu archivierenden Daten stammen aus dem Warehouse und werden anschließend im Hadoop-Cluster gespeichert, der auch die Landezone bereitstellt. Kurz gesagt, Sie können denselben Hadoop-Cluster verwenden, um Daten zu archivieren und als Landezone zu fungieren.

Die wichtigste Hadoop-Technologie, mit der Sie die Archivierung durchführen, ist Sqoop, das die zu archivierenden Daten aus dem Data Warehouse in Hadoop verschieben kann. Sie müssen überlegen, welche Form die Daten in Ihrem Hadoop-Cluster annehmen sollen. Im Allgemeinen sind komprimierte Hive-Dateien eine gute Wahl.

Sie können natürlich die Daten aus den Warehouse-Strukturen in eine andere Form umwandeln (z. B. ein normalisiertes Formular, um die Redundanz zu reduzieren), aber das ist im Allgemeinen keine gute Idee. Indem Sie die Daten in der gleichen Struktur wie im Warehouse speichern, ist es viel einfacher, eine vollständige Datensatzabfrage über die archivierten Daten in Hadoop und die aktiven Daten im Warehouse durchzuführen.

Das Konzept der Abfrage sowohl der aktiven als auch der archivierten Datensätze wirft eine weitere Überlegung auf: Wie viele Daten sollten Sie archivieren? Es gibt zwei Möglichkeiten: Archivieren Sie alles, während Daten im Data Warehouse hinzugefügt und geändert werden, oder archivieren Sie nur die Daten, die Sie für kalt halten.

Alles zu archivieren hat den Vorteil, dass Sie problemlos Abfragen von einer einzigen Schnittstelle über den gesamten Datensatz hinweg erstellen können - ohne ein vollständiges Archiv müssen Sie eine föderierte Abfragelösung ausarbeiten, in der Sie die Ergebnisse aus das Archiv und das aktive Data Warehouse.

Aber der Nachteil hier ist, dass regelmäßige Updates der heißen Daten Ihres Data Warehouse Kopfschmerzen für das Hadoop-basierte Archiv verursachen würden. Dies liegt daran, dass alle Änderungen an Daten in einzelnen Zeilen und Spalten ein Löschen und Re-Katalogisieren vorhandener Datensätze erfordern würden.

Jetzt, da die Archivierungsdaten in Ihrer Hadoop-basierten Landing-Zone gespeichert sind (vorausgesetzt, Sie verwenden eine Option wie die zuvor erwähnten komprimierten Hive-Dateien), können Sie sie abfragen. Hier können die SQL on Hadoop-Lösungen interessant werden.

Ein hervorragendes Beispiel dafür, was möglich ist, ist, dass die Analysetools (rechts in der Abbildung) direkt Berichte oder Analysen zu den in Hadoop gespeicherten archivierten Daten ausführen. Dies soll das Data Warehouse nicht ersetzen - schließlich wäre Hadoop nicht in der Lage, die Leistungsmerkmale des Warehouse zu erfüllen, um Hunderte oder mehr gleichzeitige Benutzer zu unterstützen, die komplexe Fragen stellen.

Der Punkt hier ist, dass Sie die Berichterstellungstools gegen Hadoop verwenden können, um zu experimentieren und neue Fragen zu stellen, die Sie in einem speziellen Lagerhaus oder Mart beantworten können.

Wenn Sie Ihr erstes Hadoop-Projekt zur Archivierung von Warehouse-Daten starten, unterbrechen Sie die aktuellen Prozesse erst, wenn Sie sie vollständig mit Ihrer neuen Hadoop-Lösung getestet haben. Mit anderen Worten: Wenn Ihre aktuelle Warehousing-Strategie das Archivieren auf Band vorsieht, behalten Sie diesen Prozess bei und archivieren die Daten doppelt in Hadoop und Tape, bis Sie das Szenario vollständig getestet haben (was in der Regel die Wiederherstellung der eines Lagerausfalls).

Obwohl Sie (auf kurze Sicht) zwei Archiv-Repositorys unterhalten, verfügen Sie über eine robuste Infrastruktur und testen diese, bevor Sie einen bewährten Prozess beenden. Dieser Prozess kann sicherstellen, dass Sie weiterhin bei Ihrem derzeitigen Arbeitgeber beschäftigt sind.

Dieser Anwendungsfall ist einfach, da das vorhandene Warehouse nicht geändert wird. Das Geschäftsziel ist immer noch das gleiche: Günstigere Speicher- und Lizenzkosten durch die Migration selten genutzter Daten in ein Archiv. Der Unterschied liegt in diesem Fall darin, dass die Technologie hinter dem Archiv Hadoop und nicht die Offline-Speicherung ist, wie Band.

Darüber hinaus haben verschiedene Archivanbieter damit begonnen, Hadoop in ihre Lösungen einzubinden (zum Beispiel, dass ihre proprietären Archivdateien auf HDFS gespeichert werden können). Erwarten Sie daher, dass die Funktionen in diesem Bereich bald erweitert werden.

Wenn Sie Hadoop-Fertigkeiten entwickeln (z. B. Daten zwischen Hadoop und relationalen Datenbanken austauschen und Daten in HDFS abfragen), können Sie damit größere Probleme lösen, z. B. Analyseprojekte, die einen Mehrwert für die Hadoop-Investition Ihres Unternehmens darstellen.

Hadoop als Archivierungsdatenziel - Dummies

Die Wahl des Herausgebers

Optimierung sozialer Medien: Anpassung von Inhalten an Specialty Channels - Dummies

Optimierung sozialer Medien: Anpassung von Inhalten an Specialty Channels - Dummies

Eine der besten Möglichkeiten, um Zusätzliche Meilenzahl von Ihren Sozialmedieninhalt ist, sie umzupacken und sie auf verschiedenen Kanälen freizugeben. Wenn Sie einen Blogbeitrag haben und den Beitrag direkt über Social Sharing bewerben, können Sie diesen Blogpost in eine herunterladbare PDF-Datei umwandeln. Wenn die ...

Social-Media-Optimierung: SMART Marketing - Dummies

Social-Media-Optimierung: SMART Marketing - Dummies

Wenn Sie Ihre Social Media-Ziele definiert haben, haben Sie Ihr Ziel identifiziert Zielgruppe und fand heraus, wo sie auf Social-Media-Kanälen zu finden sind, nutzte die Daten aus Analyse-Programmen, um die optimale Zeit zu bestimmen, um in sozialen Medien aktiv zu sein, und eine umfassende Social-Media-Verhaltenspolitik setzen Sie sind bereit, zu bewegen ...

Social Media Optimierung: Was Sie über Semantic Markup wissen sollten - Dummies

Social Media Optimierung: Was Sie über Semantic Markup wissen sollten - Dummies

Wenn Sie möchten Um mit Ihrer Social-Media-Optimierungsstrategie wirklich erfolgreich zu sein, müssen Sie etwas über semantisches Markup wissen. Einfach gesagt ist semantisches Markup ein standardisierter Weg, um Code zu schreiben, der eine Webseite für dumme Maschinen wie Suchmaschinen leicht verständlich macht. Es ist eine Möglichkeit, den Inhalt einer Webseite mit Anmerkungen zu versehen ...

Die Wahl des Herausgebers

Online-Community-Manager sollten ihre Ausbildung ausweiten - Dummies

Online-Community-Manager sollten ihre Ausbildung ausweiten - Dummies

Haben Sie keine Angst, etwas Neues zu lernen. Dies kann bedeuten, dass Sie Artikel über Ihre Branche, die Marke und das Online-Community-Management lesen. Dies kann bedeuten, dass Sie nach Bildung suchen, die es Ihnen ermöglicht, Ihre Community besser zu betreiben. Es schadet nie, grundlegendes Web- oder Blog-Design zu kennen und auf dem neuesten Stand der Technik zu bleiben. Außerdem ...

Online-Community-Manager sollten mit Beispiel führen - Dummies

Online-Community-Manager sollten mit Beispiel führen - Dummies

Ihre Community orientiert sich an Ihnen. Wenn du schwörst und nistest, werden die Mitglieder wissen, dass dieses Verhalten in Ordnung ist. Wenn Sie aber jeden Morgen fröhlich grüßen, folgen sie Ihrem Beispiel. Sogar Leute, die von Drama und Negativität angezogen werden, werden sich entweder an der guten Miene beteiligen, oder sie werden so müde ...

Online Community-Manager Bleiben Sie auf dem neuesten Stand der Trends - dummies

Online Community-Manager Bleiben Sie auf dem neuesten Stand der Trends - dummies

Ob es sich um Ihre Online-Community handelt oder nicht müssen Sie sich der Marktentwicklung bewusst sein. Was kaufen Leute? Wie kommunizieren sie online? Geben sie mehr oder weniger Geld aus? Welche Lebensmittel, Gadgets oder Moden sind rein oder raus? Um auf dem neuesten Stand der Trends zu bleiben, sollten Sie wissen, was und was so ist.

Die Wahl des Herausgebers

Kennenlernen der Aufgabenleiste in Outlook 2007 - dummies

Kennenlernen der Aufgabenleiste in Outlook 2007 - dummies

Ausblick 2007 eine neue Funktion namens To-Do-Leiste, die alle Dinge, die Sie tun müssen, zusammenfasst und sie in einem Bereich auf der rechten Seite des Outlook-Bildschirms anzeigt. Das Ziel der To-Do-Leiste ist es, Ihnen mitzuteilen, was Sie auf einen Blick tun müssen, anstatt ...

ÄNdern der Größe einer Notiz in Outlook 2013 - Hinweise für Dummies

ÄNdern der Größe einer Notiz in Outlook 2013 - Hinweise für Dummies

In Outlook 2013 befolgen alle Regeln dass andere Windows-Boxen folgen, also wenn Sie ein alter Hase beim Verschieben und Ändern der Größe von Boxen in Windows sind, werden Sie in Ordnung sein. Wenn Sie mit Windows und Dialogfeldern noch nicht vertraut sind, machen Sie sich keine Sorgen - Notizen lassen sich genauso einfach in der Größe ändern wie zum Schreiben und Lesen. Ändern ...

Kennenlernen von Ansichten in Outlook 2007 - Dummys

Kennenlernen von Ansichten in Outlook 2007 - Dummys

In Outlook 2007 verfügt jedes Outlook-Modul über eine eigene Auswahl von Ansichten. Jede Art von Ansicht ist so organisiert, dass ein bestimmtes Merkmal Ihrer Informationen auf den ersten Blick sichtbar wird. Sie können die Art ändern, wie Sie eine Ansicht anzeigen, indem Sie sie sortieren, filtern oder gruppieren. Sie können mit Ansichten nicht falsch gehen, weil Sie ...