Video: AWS Tutorial For Beginners | AWS Full Course - Learn AWS In 10 Hours | AWS Training | Edureka 2024
Sie werden feststellen, dass das Hadoop-Ökosystem aus vielen Komponenten besteht, die alle als eigene Apache-Projekte existieren. Da Hadoop beträchtlich gewachsen ist und mit einigen weiteren bedeutenden Änderungen konfrontiert wird, sind unterschiedliche Versionen dieser Open Source-Community-Komponenten möglicherweise nicht vollständig mit anderen Komponenten kompatibel. Dies bereitet den Leuten, die einen unabhängigen Start mit Hadoop suchen, erhebliche Schwierigkeiten, indem sie Projekte direkt von Apache herunterladen und kompilieren.
Red Hat ist für viele Menschen das Modell dafür, wie man erfolgreich Geld im Open-Source-Softwaremarkt verdient. Was Red Hat getan hat, ist, Linux (ein Open-Source-Betriebssystem) zu nutzen, alle erforderlichen Komponenten zu bündeln, ein einfaches Installationsprogramm zu erstellen und allen Kunden kostenpflichtigen Support zu bieten.
So wie Red Hat ein praktisches Paket für Linux bereitgestellt hat, haben einige Unternehmen Hadoop und einige verwandte Technologien in ihre eigenen Hadoop-Distributionen gebündelt. Diese Liste beschreibt die prominenteren:
-
Cloudera : Cloudera, vielleicht der bekannteste Spieler auf diesem Gebiet, kann Doug Cutting, den Mitbegründer von Hadoop, als seinen Chefarchitekten bezeichnen. Cloudera wird von vielen als Marktführer im Hadoop-Bereich angesehen, da es die erste kommerzielle Hadoop-Distribution veröffentlicht hat und ein sehr aktiver Code-Beitrag für das Hadoop-Ökosystem ist.
Cloudera Enterprise, ein Produkt von Cloudera im Zentrum dessen, was es den "Enterprise Data Hub" nennt, umfasst die Cloudera Distribution für Hadoop (CDH), eine Open-Source-basierte Distribution von Hadoop und verwandten Projekten sowie als proprietärer Cloudera Manager. Ebenfalls enthalten ist ein Abonnement für technische Unterstützung für die Kernkomponenten von CDH.
Clouderas primäres Geschäftsmodell basiert seit langem auf der Fähigkeit, die beliebte CDH-Distribution zu nutzen und bezahlte Dienste und Support anzubieten. Im Herbst 2013 gab Cloudera offiziell bekannt, dass es sich darauf konzentriert, proprietäre Mehrwertkomponenten zusätzlich zu Open-Source-Hadoop als Differenzierungsmerkmal hinzuzufügen.
Außerdem hat es Cloudera zu einer gängigen Praxis gemacht, die Einführung von Alpha- und Beta-Level-Open-Source-Code für die neueren Hadoop-Releases zu beschleunigen. Sein Ansatz besteht darin, Komponenten, die er als ausgereift betrachtet, zu nehmen und diese in die bestehenden produktionsfertigen Open-Source-Bibliotheken, die in seiner Distribution enthalten sind, nachzurüsten.
-
EMC : Pivotal HD, die Apache Hadoop-Distribution von EMC, integriert nativ die MPP-Datenbanktechnologie (früher bekannt als Greenplum und jetzt bekannt als HAWQ) mit Apache Hadoop.Das Ergebnis ist eine leistungsstarke Hadoop-Distribution mit echter SQL-Verarbeitung für Hadoop. SQL-basierte Abfragen und andere Business Intelligence-Tools können zur Analyse von Daten verwendet werden, die in HDFS gespeichert sind.
-
Hortonworks : Ein weiterer wichtiger Akteur auf dem Hadoop-Markt ist Hortonworks, der die größte Zahl von Committern und Code-Contributoren für die Hadoop-Ökosystemkomponenten besitzt. (Committer sind die Gatekeeper von Apache-Projekten und haben die Befugnis, Codeänderungen zu genehmigen.)
Hortonworks ist ein Spin-off von Yahoo! Das war der ursprüngliche Unternehmenstreiber des Hadoop-Projekts, weil es eine große Plattform brauchte, um sein Suchmaschinengeschäft zu unterstützen. Von allen Anbietern von Hadoop-Distributionen ist Hortonworks der Open-Source-Bewegung am stärksten verpflichtet, basierend auf dem schieren Volumen der Entwicklungsarbeit, die es zur Community beiträgt, und weil all seine Entwicklungsanstrengungen (schließlich) in die Open-Source-Codebasis gefaltet sind.
Das Geschäftsmodell von Hortonworks basiert auf der Fähigkeit, die beliebte HDP-Distribution zu nutzen und kostenpflichtige Dienste und Support anzubieten. Es verkauft jedoch keine proprietäre Software. Stattdessen unterstützt das Unternehmen enthusiastisch die Idee, innerhalb der Open-Source-Community zu arbeiten, um Lösungen zu entwickeln, die die Anforderungen an Unternehmensfunktionen erfüllen (zum Beispiel schnellere Abfrageverarbeitung mit Hive).
Hortonworks hat eine Reihe von Beziehungen zu etablierten Unternehmen der Datenverwaltungsbranche aufgebaut: Teradata, Microsoft, Informatica und SAS zum Beispiel. Obwohl diese Unternehmen keine eigenen hauseigenen Hadoop-Angebote haben, arbeiten sie mit Hortonworks zusammen, um integrierte Hadoop-Lösungen mit ihren eigenen Produktsets anzubieten.
Das Hortonworks Hadoop-Angebot ist die Hortonworks Data Platform (HDP), zu der Hadoop sowie zugehörige Tools und Projekte gehören. Im Gegensatz zu Cloudera veröffentlicht Hortonworks nur HDP-Versionen mit Code auf Produktionsniveau aus der Open-Source-Community.
-
IBM : Big Blue bietet eine Reihe von Hadoop-Angeboten an, wobei der Schwerpunkt auf dem Mehrwert des Open-Source-Hadoop-Stacks liegt.
-
Intel: Die Intel Distribution für Apache Hadoop (Intel Distribution) bietet verteilte Verarbeitung und Datenverwaltung für Unternehmensanwendungen, die Big Data analysieren.
Zu den Hauptmerkmalen gehören eine hervorragende Leistung mit Optimierungen für Intel Xeon-Prozessoren, Intel SSD-Speicher und Intel 10GbE-Netzwerke; Datensicherheit durch Verschlüsselung und Entschlüsselung in HDFS und rollenbasierte Zugriffskontrolle mit Zellgranularität in HBase; verbesserte Hive-Abfrageleistung; Unterstützung für statistische Analysen mit einem Konnektor für R, dem beliebten statistischen Open-Source-Paket; und analytische Grafiken über Intel Graph Builder.
-
MapR : Für eine vollständige Verteilung für Apache Hadoop und verwandte Projekte, die unabhängig von der Apache Software Foundation ist, suchen Sie nicht weiter als MapR. Ohne Java-Abhängigkeiten oder Verlass auf das Linux-Dateisystem wird MapR als die einzige Hadoop-Distribution beworben, die vollen Datenschutz, keine einzelnen Fehlerquellen und erhebliche Vorteile bei der Benutzerfreundlichkeit bietet.
Es stehen drei MapR-Editionen zur Verfügung: M3, M5 und M7. Die M3 Edition ist kostenlos und für unbegrenzte Produktionsnutzung verfügbar. MapR M5 ist ein Abonnement-Software-Angebot mittlerer Stufe; und MapR M7 ist eine vollständige Distribution für Apache Hadoop und HBase, die Pig, Hive, Sqoop und vieles mehr umfasst.