Video: Kenneth Cukier: Big data is better data 2024
Suchmaschinen-Innovatoren wie Yahoo! und Google standen vor einem Problem mit Moordaten. Sie mussten einen Weg finden, um die riesigen Datenmengen zu verstehen, die ihre Triebwerke sammelten. Diese Unternehmen mussten verstehen, welche Informationen sie sammelten und wie sie diese Daten monetarisieren konnten, um ihr Geschäftsmodell zu unterstützen.
Hadoop wurde entwickelt, weil es den pragmatischsten Weg darstellt, um Unternehmen die einfache Verwaltung großer Datenmengen zu ermöglichen. Mit Hadoop konnten große Probleme in kleinere Elemente zerlegt werden, so dass die Analyse schnell und kostengünstig durchgeführt werden konnte.
Indem Sie das Big-Data-Problem in kleine Teile zerlegen, die parallel verarbeitet werden können, können Sie die Informationen verarbeiten und die kleinen Teile neu gruppieren, um Ergebnisse zu präsentieren.
Hadoop wurde ursprünglich von einem Yahoo! Ingenieur namens Doug Cutting und ist jetzt ein Open-Source-Projekt von der Apache Software Foundation verwaltet. Es wird unter der Apache License v2 verfügbar gemacht. 0.
Hadoop ist ein fundamentaler Baustein in unserem Wunsch, Big Data zu erfassen und zu verarbeiten. Hadoop wurde entwickelt, um die Datenverarbeitung über Rechenknoten hinweg zu parallelisieren, um Berechnungen zu beschleunigen und Latenzzeiten auszublenden. Im Kern hat Hadoop zwei Hauptkomponenten:
-
Verteiltes Hadoop-Dateisystem: Ein zuverlässiger, kostengünstiger Datenspeichercluster mit hoher Bandbreite, der die Verwaltung verwandter Dateien über mehrere Computer hinweg ermöglicht.
-
MapReduce-Engine: Eine leistungsstarke parallele / verteilte Datenverarbeitungsimplementierung des MapReduce-Algorithmus.
Hadoop ist darauf ausgelegt, große Mengen an strukturierten und unstrukturierten Daten (Terabytes in Petabytes) zu verarbeiten, und wird als ein Hadoop-Cluster auf Racks von Commodity-Servern implementiert. Server können dynamisch zum Cluster hinzugefügt oder entfernt werden, da Hadoop als "selbstheilend" konzipiert ist. "Mit anderen Worten: Hadoop ist in der Lage, Änderungen einschließlich Fehlern zu erkennen und sich an diese Änderungen anzupassen und ohne Unterbrechung fortzufahren.