Video: hive tutorial part 6 -- Hadoop Series 2024
Um es kurz zu machen: Hive bietet Hadoop eine Brücke zur RDBMS-Welt und stellt einen SQL-Dialekt zur Verfügung, der als Hive Query Language (HiveQL) bekannt ist und zur Ausführung von SQL-ähnlichen Tasks verwendet werden kann. Das ist die große Neuigkeit, aber es gibt mehr als Hive, wie man sagt, oder mehr Anwendungen dieser neuen Technologie, als Sie in einem Standard-Elevator Pitch präsentieren können.
Zum Beispiel ermöglicht Hive auch das Konzept der Enterprise Data Warehouse (EDW) -Verstärkung, einem führenden Anwendungsfall für Apache Hadoop, wo Data Warehouses als RDBMSs speziell für die Datenanalyse und das Reporting eingerichtet werden.
Einige Experten werden nun argumentieren, dass Hadoop (mit Hive, HBase, Sqoop und seinen verschiedenen Buddies) die EDW ersetzen kann. Apache Hadoop ist jedoch ein großer Zusatz für das Unternehmen und kann ergänzen und bestehende EDWs ergänzen. Hive, HBase und Sqoop ermöglichen eine EDW-Augmentation.
Eng verbunden mit der RDBMS / EDW-Technologie ist die Extrahieren, Transformieren und Laden (ETL) -Technologie. Um zu verstehen, was ETL tut, ist es hilfreich zu wissen, dass Daten in vielen Fällen nicht sofort in die relationale Datenbank geladen werden können - sie müssen zuerst aus ihrer ursprünglichen Quelle extrahiert, in ein geeignetes Format umgewandelt und dann in das RDBMS geladen werden. EDW.
Beispielsweise kann ein Unternehmen oder eine Organisation unstrukturierte Textdaten aus einem Internetforum extrahieren, die Daten in ein strukturiertes Format umwandeln, das sowohl wertvoll als auch nützlich ist, und dann die strukturierten Daten in ihre EDW laden.
Sie können sehen, dass Hive selbst ein mächtiges ETL-Tool ist, zusammen mit dem Hauptakteur in diesem Bereich: Apache Pig. Wiederum können Benutzer versuchen, Hive und Pig als die neuen ETL-Tools für das Rechenzentrum einzurichten. (Lass sie es versuchen.)
Wie bei der Debatte über EDW und Apache Hadoop sind diese Apache-Hadoop-Technologien kein direkter Ersatz s für bestehende ETL-Tools, sondern leistungsstarke neue ETL-Tools. gegebenenfalls verwendet.
Last but not least bietet Apache Hive leistungsfähige Analysewerkzeuge, die alle im Rahmen von HiveQL verfügbar sind. Diese Tools sollten IT-Fachleuten, die mit der Verwendung von SQL vertraut sind, vertraut vorkommen.