Verteilte Rechengrundlagen für Big Data - Dummies

Video: Grundlagen - Verteilte Systeme 2025

Wenn Ihr Unternehmen ein Big Data-Projekt in Betracht zieht, sollten Sie einige Grundlagen des verteilten Computers verstehen. zuerst. Es gibt kein einzelnes verteiltes Rechenmodell, da die Rechenressourcen auf viele Arten verteilt werden können.

Sie können beispielsweise eine Reihe von Programmen auf demselben physischen Server verteilen und Messaging-Dienste verwenden, um ihnen die Kommunikation und Weiterleitung von Informationen zu ermöglichen. Es ist auch möglich, viele verschiedene Systeme oder Server zu haben, jeder mit seinem eigenen Speicher, die zusammenarbeiten können, um ein Problem zu lösen.

Warum verteilte Datenverarbeitung für Big Data erforderlich ist

Nicht alle Probleme erfordern verteiltes Computing. Wenn keine große Zeitbeschränkung vorhanden ist, kann die komplexe Verarbeitung über einen spezialisierten Dienst remote erfolgen. Wenn Unternehmen komplexe Datenanalysen durchführen müssten, würde die IT die Daten an einen externen Dienst oder eine externe Stelle übertragen, wo viele Ressourcen zur Verarbeitung zur Verfügung standen.

Es war nicht so, dass Unternehmen warten wollten, um die gewünschten Ergebnisse zu erzielen. Es war einfach nicht wirtschaftlich machbar, genügend Rechenressourcen zu kaufen, um diese neuen Anforderungen zu bewältigen. In vielen Situationen würden Organisationen nur eine Auswahl von Daten erfassen, anstatt zu versuchen, alle Daten aus Kostengründen zu erfassen. Analysten wollten alle Daten, mussten sich aber mit Schnappschüssen begnügen, in der Hoffnung, die richtigen Daten zur richtigen Zeit zu erfassen.

Die wichtigsten Durchbrüche bei Hardware und Software haben die Datenverwaltungsbranche revolutioniert. Erstens haben Innovation und Nachfrage die Leistung erhöht und den Preis für Hardware gesenkt. Es entstand neue Software, die es verstand, diese Hardware zu nutzen, indem Prozesse wie Lastausgleich und -optimierung über ein großes Cluster von Knoten hinweg automatisiert wurden.

Die Software enthielt eingebaute Regeln, die verdeutlichten, dass bestimmte Workloads ein bestimmtes Leistungsniveau erforderten. Die Software behandelte alle Knoten so, als wären sie nur ein einziger großer Pool aus Datenverarbeitungs-, Speicher- und Netzwerkressourcen und bewegte Prozesse ohne Unterbrechung auf einen anderen Knoten, wenn ein Knoten fehlschlug, und verwendete dabei die Technologie der Virtualisierung.

Die sich verändernde Wirtschaftlichkeit von Computing und Big Data

Schneller Vorlauf und vieles hat sich geändert. In den letzten Jahren sind die Kosten für den Kauf von Computer- und Speicherressourcen drastisch gesunken. Unterstützt durch Virtualisierung veränderten Commodity-Server, die gruppiert werden konnten, und Blades, die in einem Rack vernetzt werden konnten, die Wirtschaftlichkeit von Computing. Diese Änderung fiel mit Innovationen bei Software-Automatisierungslösungen zusammen, die die Verwaltbarkeit dieser Systeme drastisch verbesserten.

Die Fähigkeit, verteiltes Rechnen und parallele Verarbeitungstechniken zu nutzen, hat die Landschaft dramatisch verändert und die Latenzzeit drastisch reduziert. Es gibt spezielle Fälle, wie etwa Hochfrequenzhandel (HFT), bei denen eine niedrige Latenz nur erreicht werden kann, indem Server an einem einzigen Ort physisch lokalisiert werden.

Das Problem mit der Latenzzeit für Big Data

Eines der mehrjährigen Probleme bei der Verwaltung von Daten - insbesondere große Datenmengen - war der Einfluss der Latenzzeit. Latenz ist die Verzögerung innerhalb eines Systems, die auf Verzögerungen bei der Ausführung einer Aufgabe beruht. Latenz ist ein Problem in jedem Aspekt der Datenverarbeitung, einschließlich Kommunikation, Datenverwaltung, Systemleistung und mehr.

Wenn Sie jemals ein drahtloses Telefon benutzt haben, haben Sie Latenz aus erster Hand erlebt. Es ist die Verzögerung in den Übertragungen zwischen Ihnen und Ihrem Anrufer. Gelegentlich hat die Latenz nur geringe Auswirkungen auf die Kundenzufriedenheit, z. B. wenn Unternehmen Ergebnisse hinter den Kulissen analysieren müssen, um eine neue Produktversion zu planen. Dies erfordert wahrscheinlich keine sofortige Antwort oder keinen Zugriff.

Je näher diese Antwort zum Zeitpunkt der Entscheidung jedoch einem Kunden kommt, desto größer ist die Wartezeit.

Verteiltes Computing und parallele Verarbeitungstechniken können einen signifikanten Unterschied in der Latenzzeit von Kunden, Lieferanten und Partnern ausmachen. Viele Big-Data-Anwendungen sind aufgrund der großen Datenanforderungen an die Geschwindigkeit und der Menge und Vielfalt der Daten auf niedrige Latenzzeiten angewiesen.

Es ist möglicherweise nicht möglich, eine Big-Data-Anwendung in einer Umgebung mit hoher Latenz zu erstellen, wenn eine hohe Leistung erforderlich ist. Die Notwendigkeit, die Daten nahezu in Echtzeit zu überprüfen, kann auch durch Latenz beeinträchtigt werden. Wenn Sie mit Echtzeitdaten zu tun haben, bedeutet eine hohe Latenz den Unterschied zwischen Erfolg und Misserfolg.

Big Data-Nachfrage trifft Lösungen

Das Wachstum des Internets als Plattform für alles, vom Handel bis zur Medizin, hat die Nachfrage nach einer neuen Generation des Datenmanagements verändert. In den späten 1990er Jahren, Motor und Internet-Unternehmen wie Google, Yahoo! und Amazon. com konnte ihre Geschäftsmodelle erweitern und dabei kostengünstige Hardware für Computing und Storage einsetzen.

Als Nächstes benötigten diese Unternehmen eine neue Generation von Softwaretechnologien, mit denen sie die enormen Datenmengen, die sie von Kunden erfassen konnten, monetarisieren konnten. Diese Unternehmen konnten nicht auf Ergebnisse der analytischen Verarbeitung warten. Sie benötigten die Fähigkeit, diese Daten nahezu in Echtzeit zu verarbeiten und zu analysieren.