Unterschiedliche Ansätze zur Big-Data-Analyse - Dummies

In vielen Fällen wird die Big Data-Analyse dem Endbenutzer durch Berichte und Visualisierungen angezeigt. Da die Rohdaten unverhältnismäßig vielfältig sein können, müssen Sie sich auf Analysetools und -techniken stützen, um die Daten auf aussagekräftige Weise darzustellen.

Neue Anwendungen stehen zur Verfügung und werden grob in zwei Kategorien fallen: benutzerdefinierte oder semi-benutzerdefinierte.

Benutzerdefinierte Anwendungen für Big Data Analysis

Im Allgemeinen wird eine benutzerdefinierte Anwendung für einen bestimmten Zweck oder eine verwandte Reihe von Zwecken erstellt. Bei der Big-Data-Analyse besteht der Zweck der Entwicklung benutzerdefinierter Anwendungen darin, die Zeit bis zur Entscheidung oder Aktion zu beschleunigen.

R-Umgebung

Die "R" -Umgebung basiert auf der Statistik- und Analysesprache "S", die in den 1990er Jahren von Bell Laboratories entwickelt wurde. Es wird vom GNU-Projekt verwaltet und steht unter der GNU-Lizenz zur Verfügung.

Obwohl es schwierig zu verstehen ist, ist es aufgrund seiner Tiefe und Flexibilität eine überzeugende Wahl für Entwickler von Analyse-Anwendungen und "Power User". "Darüber hinaus unterhält das CRAN R-Projekt einen weltweiten Satz von File Transfer Protocol- und Webservern mit den aktuellsten Versionen der R-Umgebung. Eine kommerziell unterstützte Enterprise-Version von R ist ebenfalls von Revolution Analytics erhältlich.

Genauer gesagt handelt es sich bei R um eine integrierte Suite von Software-Tools und -Technologien, die entwickelt wurden, um benutzerdefinierte Anwendungen zur Vereinfachung der Datenmanipulation, -berechnung, -analyse und -visualisierung zu erstellen. Neben anderen erweiterten Funktionen unterstützt es

Effektive Datenverarbeitungs- und Manipulationskomponenten.
Operatoren für Berechnungen in Arrays und anderen Arten von geordneten Daten.
Tools für eine Vielzahl von Datenanalysen.
Erweiterte Visualisierungsfunktionen.
S-Programmiersprache, die von Programmierern entwickelt wurde, für Programmierer mit vielen bekannten Konstrukten, einschließlich Bedingungen, Schleifen, benutzerdefinierten rekursiven Funktionen und einer breiten Palette von Ein- und Ausgabemöglichkeiten.

R eignet sich gut für benutzerdefinierte Anwendungen zur Analyse von Big Data-Quellen.

Google Prediction API

Die Google Prediction API ist ein Beispiel für eine neue Klasse von Big Data-Analyse-Tools. Es ist auf der Website der Google-Entwickler verfügbar und ist gut dokumentiert und verfügt über verschiedene Zugriffsmechanismen mit verschiedenen Programmiersprachen. Um Ihnen den Einstieg zu erleichtern, steht es sechs Monate lang kostenlos zur Verfügung.

Die Vorhersage-API ist relativ einfach. Es sucht nach Mustern und vergleicht sie mit prospektiven, präskriptiven oder anderen existierenden Mustern.Während es seinen Mustervergleich durchführt, lernt es auch. "Je mehr man es benutzt, desto klüger wird es.

Vorhersage ist als RESTful API mit Sprachunterstützung für implementiert. NET, Java, PHP, JavaScript, Python, Ruby und viele andere. Google bietet auch Skripte für den Zugriff auf die API sowie eine Client-Bibliothek für R.

Predictive Analysis ist eine der mächtigsten potenziellen Fähigkeiten von Big Data, und die Google Prediction API ist ein sehr nützliches Tool zum Erstellen von benutzerdefinierten Anwendungen.

Semi-angepasste Anwendungen für die Big-Data-Analyse

In Wahrheit werden viele Anwendungen, die von vielen als benutzerdefinierte Anwendungen wahrgenommen werden, mit "verpackten" Komponenten von Drittanbietern wie Bibliotheken erstellt. Es ist nicht immer notwendig, eine neue Anwendung vollständig zu codieren. Bei der Verwendung von gepackten Anwendungen oder Komponenten müssen Entwickler oder Analysten Code schreiben, um diese Komponenten in einer funktionierenden benutzerdefinierten Anwendung "zusammenzufassen". Im Folgenden finden Sie Gründe für einen soliden Ansatz:

Geschwindigkeit bis zur Bereitstellung: Da Sie nicht jeden Teil der Anwendung schreiben müssen, kann die Entwicklungszeit erheblich verkürzt werden.
Stabilität: Die Verwendung von gut konstruierten, zuverlässigen Komponenten von Drittanbietern kann dazu beitragen, die benutzerdefinierte Anwendung widerstandsfähiger zu machen.
Bessere Qualität: Paketierte Komponenten unterliegen häufig höheren Qualitätsstandards, da sie in einer Vielzahl von Umgebungen und Domänen eingesetzt werden.
Mehr Flexibilität: Wenn eine bessere Komponente verfügbar ist, kann sie in die Anwendung eingetauscht werden, wodurch die Lebensdauer, Anpassbarkeit und Nützlichkeit der benutzerdefinierten Anwendung verlängert wird.

Ein anderer Typ einer semi-benutzerdefinierten Anwendung ist eine Anwendung, bei der der Quellcode verfügbar ist und für einen bestimmten Zweck modifiziert wurde. Dies kann ein effizienter Ansatz sein, da es einige Beispiele für Anwendungsbausteine gibt, die in Ihre semi-benutzerdefinierte Anwendung integriert werden können:

TA-Lib: Die Technische Analysebibliothek wird in großem Umfang von Softwareentwicklern verwendet, die technische Analyse von Finanzmarktdaten durchführen. Es ist als Open Source unter der BSD-Lizenz verfügbar und kann so in halb-kundenspezifische Anwendungen integriert werden.
JUNG: Das Java Universal Network Graph-Framework ist eine Bibliothek, die ein gemeinsames Framework für die Analyse und Visualisierung von Daten bereitstellt, die durch ein Diagramm oder ein Netzwerk dargestellt werden können. Es ist nützlich für soziale Netzwerkanalysen, Wichtigkeitsmessungen und Data Mining. Es ist als Open Source unter der BSD-Lizenz verfügbar.
GeoTools: Ein Open Source Geospatial Toolkit zur Manipulation von GIS-Daten in vielen Formen, zur Analyse räumlicher und nicht-räumlicher Attribute oder GIS-Daten sowie zur Erstellung von Graphen und Netzwerken der Daten. Es ist unter der GPL2-Lizenz verfügbar und ermöglicht die Integration in semi-benutzerdefinierte Anwendungen.