Zuhause Persönliche Finanzen Graphverarbeitung In Hadoop - Dummies

Graphverarbeitung In Hadoop - Dummies

Inhaltsverzeichnis:

Video: hadoop yarn architecture 2025

Video: hadoop yarn architecture 2025
Anonim

Eine der aufregendsten aufkommenden NoSQL-Technologien betrifft das Speichern und Verarbeiten von Diagrammdaten. Man könnte denken, dass diese Aussage eine alte Nachricht ist, weil Informatiker seit Jahrzehnten Graphanalyse-Techniken entwickeln. Was Sie sagen, mag wahr sein, aber was neu ist, ist, dass Sie mit Hadoop Graphenanalysen in großem Maßstab durchführen können.

Was sind Grafikdaten?

Ein Graph in Datenbegriffen ist einfach eine Darstellung einzelner Entitäten und ihrer Beziehungen. Die Entitäten eines Graphen sind als Knoten (oder Knoten ) bekannt, und die Beziehungen zwischen Entitäten in einem Graphen sind als Kanten (oder Verbindungen) bekannt. >). Die Darstellung von Datensätzen in einem Diagramm im Gegensatz zu herkömmlichen Zeilen und Spalten vereinfacht die Verarbeitung Ihrer Daten auf eine Weise, die die Beziehungen zwischen Objekten kristallklar macht. Typische Diagrammberechnungen werden durch die kürzeste Wegstrecke zwischen mehreren Knoten in Ihrem Graphen dargestellt oder einfach dadurch, wie viele Knoten Verbindungen eines bestimmten Typs mit einem bestimmten Knoten haben.

Anwendungen für die Graphanalyse

Die bekannteste Anwendung für Graphdatenbanken ist der PageRank-Algorithmus von Google, der die Verknüpfungsbeziehungen zwischen allen bekannten Webseiten berechnet. Google stellt das Web als ein riesiges Diagramm dar, bei dem die Webseiten Knoten sind und die Links von einer Seite zu einer anderen als Kanten dargestellt werden. (Google teilte den Reichtum mit, indem er ein Papier veröffentlichte, das sein Graph-Analyse-Projekt - Pregel genannt - im Jahr 2010 beschrieb.) Die Graph-Verarbeitung, an der Google interessiert war, beinhaltete die Berechnung der Anzahl von eingehenden Verbindungen für jede Webseite.

Facebook sorgte 2013 für Aufsehen, als es ankündigte, dass es Apache Giraph (basierend auf dem Pregel-Artikel) verwendete, eine Grafikverarbeitungs-Engine, die entwickelt wurde, um in HDFS gespeicherte Graphen zu verarbeiten. Es zeigte die Macht von Giraph, indem es einen Graphen zeigte, der alle Benutzer von Facebook (über 1 Milliarde) und ihre Freundschaften (Milliarden!) Darstellt, die zusammen über 1 Billionen Kanten hat. Diese Skala ist atemberaubend: Wenn Sie Facebook sind und Berechnungen wie Freundschaftsempfehlungen durchführen müssen, welches Werkzeug ist dann besser als ein Grafikprozessor? Es ist keine Überraschung, dass eine verteilte Graphdatenbank im Kern jeder anderen bemerkenswerten Social-Media-Site liegt, einschließlich Twitter, LinkedIn, OkCupid und Pinterest.

Eine Grafikverarbeitungs-Engine kann problemlos viele praktische Fragen für Social-Media-Seiten beantworten. Zwei Beispiele zeigen, wie LinkedIn den Grad der Trennung zwischen Ihnen und einem anderen Benutzer darstellt. Dies ist eine kürzeste Pfadberechnung (was ist die engste Verbindung zwischen zwei Knoten?) und wie OkCupid Benutzern mit gemeinsamen Interessen zeigt, ist eine Reihe von kollaborativen Filterberechnungen (welche sind die häufigsten Verbindungen zu einem bestimmten Satz von Knoten?).

Graphanalyse in Hadoop

Die Graphanalyse zu Hadoop befindet sich im Frühjahr 2014 noch in einem frühen Stadium. Mit dem Aufkommen von YARN in Hadoop 2 werden Graphanalyse und andere spezialisierte Verarbeitungstechniken bei Hadoop immer beliebter. Viele der in diesem Artikel erwähnten sozialen Websites verwenden ihre eigenen, proprietären Diagrammdatenbanken und Verarbeitungsmodule, aber Facebook ist ein prominenter Benutzer von Giraph. Aufgrund des (impliziten) Gütesiegels von Facebook ist Giraph eine beliebte Wahl für die Analyse von Graphen auf Hadoop geworden, hat jedoch einige Einschränkungen. Es handelt sich lediglich um eine Verarbeitungsengine, da es Daten als Diagramm in den Speicher des Clusters lädt und für chargenorientierte Abfragen optimiert ist.

Eine weitere Grafikverarbeitungslösung stammt von Aurelius, einem Unternehmen, das eine Reihe von Open-Source-Analysewerkzeugen für Hadoop veröffentlicht hat. Das Kernstück des Angebots ist Titan, eine Graphendatenbank mit HBase als Persistenzschicht, die für interaktive Abfragen optimiert ist, und Faunus, eine Grafikverarbeitungsengine, die einen Schnappschuss eines Graphen von Titan in HDFS speichert und MapReduce-Jobs dagegen ausführt… Aurelius verfügt sowohl für die interaktive (Titan) als auch die Batch-Anwendung (Faunus) über die übliche Graph-Traversal-API namens Gremlin.

Schließlich verfügt das Apache Spark-Projekt über den GraphX-Ableger, der die Generierung von Diagrammdaten und die anschließende Verarbeitung innerhalb des Spark-Frameworks ermöglicht.

Graphverarbeitung In Hadoop - Dummies

Die Wahl des Herausgebers

Wie man die Socialcast Mobile App benutzt - dummies

Wie man die Socialcast Mobile App benutzt - dummies

Sogar die stoischste Anwendung wie Microsoft Excel hat ein begleitendes Smartphone-App, natürlich hat Socialcast auch eine. Wenn es so wäre, wäre es nicht wirklich eine Ausrede zu sagen, dass Socialcast nicht sehr sozial wäre, wenn du es nicht mit in die große Welt außerhalb deiner Zelle mitnehmen könntest. Die mobile App ...

Wie man das App Verzeichnis von Yammer benutzt - dummies

Wie man das App Verzeichnis von Yammer benutzt - dummies

Sie haben vielleicht gehört: "Es gibt eine App dafür. "Nun, das ist der Fall bei Yammer, der als einzige Ressource für die Vernetzung am Arbeitsplatz funktioniert. Aber Yammer bietet Ihnen auch eine Menge Apps, mit denen Sie Ihr Arbeitsleben noch einfacher gestalten können. Es gibt zwei Möglichkeiten, auf das App-Verzeichnis zuzugreifen: Option ...

So ​​verwenden Sie die Yammer-Analysetools - Dummies

So ​​verwenden Sie die Yammer-Analysetools - Dummies

Yammer rühmt sich damit als "führendes soziales Unternehmensnetzwerk für Unternehmen" um die Arbeit intelligenter und schneller zu erledigen. "Woher weißt du, ob das wahr ist? Ein guter Weg, um zu sehen, wie es für Sie funktioniert, ist die Analyse von Yammer. Wie greifen Sie auf diese großartigen Tools zu? Es ist einfach. Log ...

Die Wahl des Herausgebers

Die Evolution von Distributed Computing für Big Data - Dummies

Die Evolution von Distributed Computing für Big Data - Dummies

Hinter allen wichtigen Trends des letzten Jahrzehnts, einschließlich Serviceorientierung, Cloud Computing, Virtualisierung und Big Data, ist eine grundlegende Technologie namens Distributed Computing. Einfach gesagt, ohne die Verteilung von Datenverarbeitung wäre keiner dieser Fortschritte möglich. Distributed Computing ist eine Technik, mit der einzelne Computer über geografische Gebiete hinweg miteinander vernetzt werden können, so als ob ...

Drei Anbieter mit Data Mining-Produkten - Dummies

Drei Anbieter mit Data Mining-Produkten - Dummies

Es gibt mehrere Anbieter, die Data-Mining-Produkte verkaufen, die Sie vielleicht in Betracht ziehen möchten. Verwenden Sie mit Ihrem Data Warehouse. Hier sind drei, die eine Überlegung wert sind. Microsoft Microsoft hat das serverseitige Data Mining mit Microsoft SQL Server 2005 eingeführt. Obwohl es nicht so ausgereift und ausgeklügelt wie SAS und SPSS ist, hat Microsoft im Laufe der Zeit seine Fähigkeit bewiesen ...

Grundlagen der Big-Data-Integration - Dummies

Grundlagen der Big-Data-Integration - Dummies

Die fundamentalen Elemente der Big-Data-Plattform verwalten Daten auf neue Weise verglichen mit der traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten. Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra, ...

Die Wahl des Herausgebers

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

Die meisten modernen Smartphones sind Wi-Fi-fähig. In ein lokales Netzwerk können Sie Spotify-Tracks mithilfe von Wi-Fi auf Ihr Telefon streamen. Sie können Spotify Mobile zu Hause und über Wi-Fi-Netzwerke in Hotels und Cafés problemlos nutzen - Sie müssen nur sicherstellen, dass Sie angemeldet und verbunden sind. ...

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert, kann Auswirkungen auf den Festplattenspeicher Ihres Computers haben. Internetverbindung. Spotify funktioniert anders als viele andere Online-Musikdienste, weil es auf mehrere Arten angewiesen ist, um Ihnen reibungslos Musik ohne Verzögerungen zu liefern. In Computing-Sprechen, das Maß der Verzögerung zwischen Anfordern eines Songs und Hören es ...

So ​​erreichen Sie Spotify Support - Dummies

So ​​erreichen Sie Spotify Support - Dummies

Es kann vorkommen, dass Sie eine kleine Hilfe beim Navigieren und Verwenden von Spotify benötigen von deinen Spotify Freunden. Sie können jederzeit Support @ spotify per E-Mail senden. com mit Ihrer Frage oder melden Sie sich bei Twitter an und senden Sie einen Tweet an @spotify. Stellen Sie sicher, dass Sie alle Informationen einschließen, die dem Support-Team helfen könnten, einschließlich Ihres Benutzernamens, damit sie ...