Video: Impala Hadoop Tutorial | Cloudera Impala Hands On | Hadoop Impala Architecture | COSO IT 2024
Cloudera ist ein führender Apache Hadoop Software- und Diensteanbieter im Big-Data-Markt… Wie Apache Drill versucht die Impala-Technologie von Cloudera, die Interaktionszeit für interaktive Abfragen für Hadoop-Benutzer zu verbessern. Apache Hive bietet einen vertrauten und leistungsstarken Abfragemechanismus für Hadoop-Benutzer, aber Abfrageantwortzeiten sind aufgrund der Abhängigkeit von MapReduce durch Hive oft nicht akzeptabel. Clouderas Antwort auf dieses Problem ist Impala.
Cloudera hat eine in C ++ geschriebene MPP-Abfrage-Engine entwickelt, um die von Apache Hive genutzte MapReduce-Schicht zu ersetzen. Im Gegensatz zu Dremel und Drill entschied Cloudera, dass eine native C ++ - MPP-Engine anstelle einer Java-Engine die Antwort auf schnelle, interaktive Hadoop-Abfragen ist.
Beachten Sie, dass Impala HiveQL als Programmierschnittstelle verwendet und Impalas Query Exec Engines gemeinsam mit HDFS-Datenknoten angeordnet sind. Dies entspricht dem Hadoop-Ansatz, Daten mit Verarbeitungsaufgaben zu verknüpfen. Impala kann HBase auch als Datenspeicher verwenden. In diesem Sinne ist Impala eine Erweiterung von Apache Hadoop, die eine sehr leistungsfähige Alternative zum Hive-on-Top-of-MapReduce-Modell darstellt.
Cloudera und Twitter führten die Entwicklung des neuen Hadoop-Dateiformats an, das mit Impala verwendet werden kann und als Open Source auf GitHub verfügbar ist. Das Parquet-Dateiformat bietet ein robustes Spaltenmedium zum Speichern von Daten in Hadoop. Es unterstützt hocheffiziente Komprimierung und Codierung und ist effektiv für das Speichern verschachtelter Datenstrukturen.
Sie können die Impala-Technologie von Cloudera finden, die auch von Googles Dremel-Erfindung inspiriert wurde.