Faktoren, die den Maßstab der statistischen Analyse in Hadoop erhöhen - Dummies

Video: AWS Tutorial For Beginners | AWS Full Course - Learn AWS In 10 Hours | AWS Training | Edureka 2025

Der Grund Leute, die ihre Daten abfragen, bevor sie eine statistische Analyse in Hadoop durchführen, ist, dass diese Art von Analyse oft erhebliche Rechenressourcen erfordert. Dabei geht es nicht nur um Datenvolumen: Es gibt fünf Hauptfaktoren, die das Ausmaß der statistischen Analyse beeinflussen:

Das ist einfach, aber wir müssen es erwähnen: Das Datenvolumen, auf dem Sie die Analyse durchführen werden, bestimmt definitiv der Maßstab der Analyse.
Die Anzahl der Transformationen, die vor der Anwendung statistischer Modelle für den Datensatz benötigt werden, ist definitiv ein Faktor.
Die Anzahl der paarweisen Korrelationen, die Sie berechnen müssen, spielt eine Rolle.
Der Grad der Komplexität der anzuwendenden statistischen Berechnungen ist ein Faktor.
Die Anzahl der statistischen Modelle, die auf Ihren Datensatz angewendet werden, spielt eine wichtige Rolle.

Hadoop bietet einen Ausweg aus diesem Dilemma, indem es eine Plattform zur Verfügung stellt, um massiv parallele Verarbeitungsberechnungen für Daten in Hadoop durchzuführen.

Dadurch kann der analytische Datenfluss umgedreht werden. Statt die Daten aus dem Repository in den Analyseserver zu verschieben, liefert Hadoop die Analysen direkt an die Daten. Genauer gesagt, HDFS ermöglicht es Ihnen, Ihre Berge von Daten zu speichern und dann die Berechnung (in Form von MapReduce-Aufgaben) an die Slave-Knoten zu bringen.

Die gemeinsame Herausforderung, die sich aus dem Übergang von traditionellen symmetrischen Multi-Processing-Statistiksystemen (SMP) zu Hadoop-Architektur ergibt, ist die Lokalität der Daten. Auf traditionellen SMP-Plattformen teilen mehrere Prozessoren den Zugriff auf eine einzelne Hauptspeicherressource.

In Hadoop repliziert HDFS Partitionen von Daten über mehrere Knoten und Maschinen hinweg. Außerdem müssen statistische Algorithmen, die zur Verarbeitung von Daten im Arbeitsspeicher entwickelt wurden, nun an Datensätze angepasst werden, die sich über mehrere Knoten / Racks erstrecken und nicht in einen einzigen Speicherblock passen könnten.