Zuhause Persönliche Finanzen ÄNdern von Business Intelligence-Produkten zur Verarbeitung von Big Data - Dummies

ÄNdern von Business Intelligence-Produkten zur Verarbeitung von Big Data - Dummies

Inhaltsverzeichnis:

Video: Big Data und Advanced Analytics mit Microsoft Azure | Microsoft 2024

Video: Big Data und Advanced Analytics mit Microsoft Azure | Microsoft 2024
Anonim

Traditionelle Business-Intelligence-Produkte wurden ursprünglich nicht für die Verarbeitung großer Datenmengen entwickelt, sodass sie möglicherweise geändert werden müssen. Sie wurden entwickelt, um mit hoch strukturierten, gut verstandenen Daten zu arbeiten, die oft in einem relationalen Datenrepository gespeichert und auf Ihrem Desktop oder Laptop angezeigt werden. Diese traditionelle Business-Intelligence-Analyse wird normalerweise auf Snapshots von Daten und nicht auf die gesamte verfügbare Datenmenge angewendet. Was ist anders bei der Big Data Analyse?

Big Data Data

Big Data besteht aus strukturierten, semi-strukturierten und unstrukturierten Daten. Sie haben oft viel davon und es kann sehr komplex sein. Wenn Sie über die Analyse nachdenken, müssen Sie sich der potenziellen Eigenschaften Ihrer Daten bewusst sein:

  • Sie können von nicht vertrauenswürdigen Quellen stammen. Bei der Big Data-Analyse werden häufig Daten aus verschiedenen Quellen aggregiert. Diese können sowohl interne als auch externe Datenquellen umfassen. Wie vertrauenswürdig sind diese externen Informationsquellen? Zum Beispiel, wie vertrauenswürdig sind Social-Media-Daten wie ein Tweet? Die Informationen können von einer nicht verifizierten Quelle stammen. Die Integrität dieser Daten muss in der Analyse berücksichtigt werden.

  • Es kann schmutzig sein. Schmutzige Daten beziehen sich auf ungenaue, unvollständige oder fehlerhafte Daten. Dies kann das Falschschreiben von Wörtern einschließen; ein Sensor, der kaputt, nicht richtig kalibriert oder in irgendeiner Weise beschädigt ist; oder sogar duplizierte Daten. Datenwissenschaftler diskutieren darüber, wo die Daten bereinigt werden müssen - entweder in der Nähe der Quelle oder in Echtzeit.

    Natürlich sagt eine Denkschule, dass die schmutzigen Daten überhaupt nicht gereinigt werden sollten, weil sie interessante Ausreißer enthalten könnten. Die Bereinigungsstrategie hängt wahrscheinlich von der Quelle und der Art der Daten und dem Ziel Ihrer Analyse ab. Wenn Sie beispielsweise einen Spamfilter entwickeln, besteht das Ziel darin, die fehlerhaften Elemente in den Daten zu erkennen, sodass Sie sie nicht bereinigen möchten.

  • Das Signal-Rausch-Verhältnis kann niedrig sein. Mit anderen Worten, das Signal (nutzbare Information) kann nur ein winziger Prozentsatz der Daten sein; der Lärm ist der Rest. In der Lage zu sein, ein winziges Signal aus verrauschten Daten zu extrahieren, ist ein großer Vorteil von Big-Data-Analysen, aber Sie müssen sich bewusst sein, dass das Signal tatsächlich klein sein kann.

  • Es kann Echtzeit sein. In vielen Fällen versuchen Sie, Echtzeitdatenströme zu analysieren.

Big Data Governance wird ein wichtiger Teil der analytischen Gleichung sein. Unter Business Analytics müssen Verbesserungen an Governance-Lösungen vorgenommen werden, um die Richtigkeit der neuen Datenquellen sicherzustellen, insbesondere, da sie mit vorhandenen vertrauenswürdigen Daten kombiniert werden, die in einem Warehouse gespeichert sind.Datensicherheits- und Datenschutzlösungen müssen ebenfalls verbessert werden, um die Verwaltung und Verwaltung von Big Data zu unterstützen, die in neuen Technologien gespeichert sind.

Analytische Big-Data-Algorithmen

Wenn Sie über Big-Data-Analysen nachdenken, müssen Sie sich darüber im Klaren sein, dass wenn Sie über den Desktop hinaus expandieren, die von Ihnen verwendeten Algorithmen oft refaktorisiert werden müssen, interner Code, ohne seine externe Funktion zu beeinträchtigen. Das Schöne an einer Big-Data-Infrastruktur ist, dass Sie ein Modell ausführen können, das früher Stunden oder Tage in Minuten beanspruchte.

Damit können Sie Hunderte Male auf dem Modell iterieren. Wenn Sie jedoch eine Regression für eine Milliarde Datenzeilen in einer verteilten Umgebung ausführen, müssen Sie die Ressourcenanforderungen berücksichtigen, die sich auf das Datenvolumen und seinen Speicherort im Cluster beziehen. Ihre Algorithmen müssen datenbewusst sein.

Darüber hinaus bieten die Anbieter neue Analysen an, die so konzipiert sind, dass sie in der Nähe der großen Datenquellen platziert werden können, um die vorhandenen Daten zu analysieren. Dieser Ansatz, Analysen näher an den Datenquellen durchzuführen, minimiert die Menge der gespeicherten Daten, indem nur die wertvollen Daten beibehalten werden. Es ermöglicht Ihnen außerdem, die Daten früher zu analysieren, was für die Entscheidungsfindung in Echtzeit entscheidend ist.

Natürlich wird sich die Analytik weiter entwickeln. Beispielsweise benötigen Sie Echtzeit-Visualisierungsfunktionen, um Echtzeitdaten anzuzeigen, die sich kontinuierlich ändern. Wie plotten Sie praktisch eine Milliarde Punkte in einem Diagramm? Oder wie arbeiten Sie mit den prädiktiven Algorithmen, so dass sie schnell genug und tief genug analysieren, um einen ständig wachsenden, komplexen Datensatz zu nutzen? Dies ist ein Bereich der aktiven Forschung.

Unterstützung von Big-Data-Infrastrukturen

Es genügt zu sagen, dass, wenn Sie nach einer Plattform suchen, diese Folgendes erreichen muss:

  • Technologien integrieren: Die Infrastruktur muss neue Big-Data-Technologien mit traditionelle Technologien, um alle Arten von Big Data zu verarbeiten und durch traditionelle Analysen konsumierbar zu machen.

  • Speichern Sie große Mengen unterschiedlicher Daten: Es kann ein unternehmensgeschütztes Hadoop-System erforderlich sein, das große Datenmengen in Ruhe verarbeiten, speichern und verwalten kann, unabhängig davon, ob es strukturiert, halbstrukturiert oder unstrukturiert ist.

  • Prozessdaten in Bewegung: Eine Stream-Computing-Funktion kann erforderlich sein, um Daten in Bewegung zu verarbeiten, die kontinuierlich von Sensoren, intelligenten Geräten, Video, Audio und Protokollen zur Echtzeit-Entscheidungsfindung generiert werden.

  • Warehouse-Daten: Möglicherweise benötigen Sie eine Lösung, die für operative oder tiefe analytische Workloads optimiert ist, um die wachsenden Mengen vertrauenswürdiger Daten zu speichern und zu verwalten.

Und natürlich benötigen Sie die Fähigkeit, die bereits vorhandenen Daten zusammen mit den Ergebnissen der Big Data-Analyse zu integrieren.

ÄNdern von Business Intelligence-Produkten zur Verarbeitung von Big Data - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...