Zuhause Persönliche Finanzen Big Data für Dummies Cheat Sheet - Dummies

Big Data für Dummies Cheat Sheet - Dummies

Video: TI-83+/84 GC Cheat Sheet Generator [Java] 2024

Video: TI-83+/84 GC Cheat Sheet Generator [Java] 2024
Anonim

Von Judith Hurwitz, Alan Nugent und Fern Halper, Marcia Kaufman

Unternehmen müssen einen praktischen Weg finden, mit Big Data umzugehen, um wettbewerbsfähig zu bleiben - um neue Wege zu finden, um wachsende Mengen zu erfassen und zu analysieren von Informationen über Kunden, Produkte und Dienstleistungen. Daten werden auf strukturierte und unstrukturierte Weise immer komplexer. Neue Datenquellen kommen von Maschinen wie Sensoren; soziale Geschäftsseiten; und Website-Interaktion, z. B. Click-Stream-Daten. Um diese sich ändernden Geschäftsanforderungen zu erfüllen, müssen die richtigen Informationen zur richtigen Zeit verfügbar sein.

Big Data definieren: Volumen, Geschwindigkeit und Vielfalt

Mit Big Data können Unternehmen große Mengen unterschiedlicher Daten in der richtigen Geschwindigkeit und zum richtigen Zeitpunkt speichern, verwalten und bearbeiten. Um die richtigen Einsichten zu erhalten, werden Big Data in der Regel nach drei Merkmalen aufgeschlüsselt:

  • Volume: Wie viele Daten

  • Velocity: Wie schnell Daten verarbeitet werden

  • Variety: Die verschiedenen Datentypen

Während es praktisch ist, Big Data in die drei Vs zu vereinfachen, kann es irreführend und zu einfach sein. Zum Beispiel können Sie eine relativ kleine Menge sehr unterschiedlicher, komplexer Daten verwalten oder Sie verarbeiten sehr viele sehr einfache Daten. Diese einfachen Daten können alle strukturiert oder alle unstrukturiert sein.

Noch wichtiger ist das vierte V, Wahrhaftigkeit. Wie genau sind diese Daten bei der Vorhersage des Geschäftswerts? Machen die Ergebnisse einer Big-Data-Analyse tatsächlich Sinn? Daten müssen auf der Grundlage von Genauigkeit und Kontext verifiziert werden können. Ein innovatives Unternehmen möchte vielleicht in der Lage sein, riesige Datenmengen in Echtzeit zu analysieren, um schnell den Wert dieses Kunden und das Potenzial zu bewerten, diesem Kunden zusätzliche Angebote zu unterbreiten. Es ist notwendig, die richtige Menge und Art von Daten zu identifizieren, die in Echtzeit analysiert werden können, um die Geschäftsergebnisse zu beeinflussen.

Big Data umfasst alle Arten von Daten, einschließlich strukturierter Daten und unstrukturierter Daten aus E-Mails, sozialen Medien, Text-Streams und so weiter. Diese Art der Datenverwaltung erfordert, dass Unternehmen sowohl strukturierte als auch unstrukturierte Daten nutzen.

Unstrukturierte Daten verstehen

Unstrukturierte Daten unterscheiden sich von strukturierten Daten dadurch, dass ihre Struktur nicht vorhersehbar ist. Beispiele für unstrukturierte Daten sind Dokumente, E-Mails, Blogs, digitale Bilder, Videos und Satellitenbilder. Es enthält auch einige Daten, die von Maschinen oder Sensoren erzeugt werden. In der Tat sind unstrukturierte Daten für die Mehrheit der Daten verantwortlich, die sowohl in Ihrem Unternehmen als auch außerhalb Ihres Unternehmens in privaten und öffentlichen Online-Quellen wie Twitter und Facebook gespeichert sind.

In der Vergangenheit konnten die meisten Unternehmen diese große Datenmenge weder erfassen noch speichern. Es war einfach zu teuer oder zu überwältigend. Selbst wenn Unternehmen in der Lage waren, die Daten zu erfassen, verfügten sie nicht über die Werkzeuge, um die Daten einfach zu analysieren und die Ergebnisse für Entscheidungen zu nutzen. Nur wenige Tools könnten diese riesigen Datenmengen sinnvoll erfassen. Die Werkzeuge, die existierten, waren komplex zu benutzen und brachten keine Ergebnisse in einem vernünftigen Zeitrahmen hervor.

Am Ende waren diejenigen, die wirklich zu dem enormen Aufwand bei der Analyse dieser Daten gehen wollten, gezwungen, mit Momentaufnahmen von Daten zu arbeiten. Dies hat den unerwünschten Effekt, wichtige Ereignisse zu verpassen, da sie nicht in einer bestimmten Momentaufnahme enthalten waren.

Ein Ansatz, der immer mehr geschätzt wird, um aus unstrukturierten Daten einen geschäftlichen Nutzen zu ziehen, ist Textanalyse, die Analyse unstrukturierter Texte, die Extraktion relevanter Informationen und die Umwandlung in strukturierte Informationen, die dann auf verschiedene Weise genutzt werden. Die Analyse- und Extraktionsprozesse nutzen Techniken, die aus der Computerlinguistik, der Statistik und anderen Informatikdisziplinen stammen.

Die Rolle traditioneller Betriebsdaten in der Big Data-Umgebung

Zu ​​wissen, welche Daten gespeichert werden und wo sie gespeichert werden, sind wichtige Bausteine ​​in Ihrer Big-Data-Implementierung. Es ist unwahrscheinlich, dass Sie RDBMS für den Kern der Implementierung verwenden, aber es ist sehr wahrscheinlich, dass Sie sich auf die in RDBMS gespeicherten Daten verlassen müssen, um für das Geschäft mit Big Data den höchsten Wert zu schaffen.

Die meisten großen und kleinen Unternehmen speichern ihre wichtigsten betrieblichen Informationen wahrscheinlich in relationalen Datenbankverwaltungssystemen (RDBMS), die auf einer oder mehreren Beziehungen aufbauen und durch Tabellen dargestellt werden. Diese Tabellen sind durch die Art der Speicherung der Daten definiert. Die Daten werden in Datenbankobjekten namens Tabellen gespeichert, die in Zeilen und Spalten organisiert sind. RDBMS folgen einem konsistenten Ansatz bei der Art und Weise, wie Daten gespeichert und abgerufen werden.

Um den größtmöglichen geschäftlichen Nutzen aus Ihrer Echtzeitanalyse unstrukturierter Daten zu ziehen, müssen Sie diese Daten im Kontext mit Ihren historischen Daten zu Kunden, Produkten, Transaktionen und Vorgängen verstehen. Mit anderen Worten: Sie müssen Ihre unstrukturierten Daten in Ihre traditionellen Betriebsdaten integrieren.

Grundlagen der Big-Data-Infrastruktur

Bei Big Data geht es um hohe Geschwindigkeit, große Volumina und eine große Datenvielfalt, sodass die physische Infrastruktur die Implementierung buchstäblich "umsetzen" wird. Die meisten Big-Data-Implementierungen müssen hoch verfügbar sein, daher müssen die Netzwerke, Server und der physische Speicher robust und redundant sein.

Ausfallsicherheit und Redundanz sind miteinander verknüpft. Eine Infrastruktur oder ein System ist resistent gegenüber Ausfällen oder Änderungen, wenn ausreichend redundante Ressourcen vorhanden sind, die bereit sind, in Aktion zu treten. Ausfallsicherheit hilft, einzelne Fehlerquellen in Ihrer Infrastruktur zu beseitigen. Wenn zum Beispiel nur eine Netzwerkverbindung zwischen Ihrem Unternehmen und dem Internet besteht, haben Sie keine Netzwerkredundanz und die Infrastruktur ist nicht widerstandsfähig in Bezug auf einen Netzwerkausfall.

In großen Rechenzentren mit Business-Continuity-Anforderungen ist die Redundanz größtenteils vorhanden und kann genutzt werden, um eine Big Data-Umgebung zu schaffen. Bei neuen Implementierungen sind die Entwickler dafür verantwortlich, die Bereitstellung basierend auf Kosten und Leistung auf die Anforderungen des Unternehmens abzustimmen.

Verwalten von Big Data mit Hadoop: HDFS und MapReduce

Hadoop, ein Open-Source-Software-Framework, verwendet HDFS (das Hadoop Distributed File System) und MapReduce, um Big Data auf Clustern von Standardhardware zu analysieren. verteilte Rechnerumgebung.

Das Hadoop Distributed File System (HDFS) wurde entwickelt, um es Unternehmen zu ermöglichen, riesige Datenmengen einfacher und pragmatischer zu verwalten. Mit Hadoop können große Probleme in kleinere Elemente zerlegt werden, sodass die Analyse schnell und kostengünstig durchgeführt werden kann. HDFS ist ein vielseitiger, flexibler, geclusterter Ansatz zum Verwalten von Dateien in einer Big Data-Umgebung.

HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr ist es ein Daten- "Dienst", der einen einzigartigen Satz von Fähigkeiten bietet, die benötigt werden, wenn Datenvolumen und Geschwindigkeit hoch sind.

MapReduce ist ein Software-Framework, mit dem Entwickler Programme schreiben können, die große Mengen unstrukturierter Daten parallel über eine verteilte Gruppe von Prozessoren verarbeiten können. MapReduce wurde von Google entwickelt, um im Batch-Modus eine Reihe von Funktionen effizient gegen eine große Datenmenge auszuführen.

Die Komponente "map" verteilt das Programmierproblem oder die Tasks über eine große Anzahl von Systemen und übernimmt die Verteilung der Tasks so, dass die Last ausgeglichen und die Wiederherstellung nach Fehlern verwaltet wird. Nachdem die verteilte Berechnung abgeschlossen ist, aggregiert eine andere Funktion namens "reduzieren" alle Elemente wieder zusammen, um ein Ergebnis zu liefern. Ein Beispiel für die Verwendung von MapReduce wäre die Bestimmung, wie viele Seiten eines Buchs in jeweils 50 verschiedenen Sprachen geschrieben werden.

Den Grundstein für Ihre Big Data-Strategie legen

Unternehmen schwimmen in Big Data. Das Problem ist, dass sie oft nicht wissen, wie sie diese Daten pragmatisch nutzen können, um die Zukunft vorhersagen zu können, wichtige Geschäftsprozesse auszuführen oder einfach nur neue Erkenntnisse zu gewinnen. Das Ziel Ihrer Big-Data-Strategie und Ihres Plans sollte darin bestehen, einen pragmatischen Weg zu finden, um Daten für besser vorhersagbare Geschäftsergebnisse nutzbar zu machen.

Beginnen Sie Ihre Big-Data-Strategie, indem Sie einen Erkennungsprozess einleiten. Sie müssen wissen, welche Daten Sie bereits haben, wo sie sich befinden, wer sie besitzt und kontrolliert und wie sie derzeit verwendet werden. Welche Datenquellen von Drittanbietern benötigen beispielsweise Ihr Unternehmen? Dieser Prozess kann Ihnen viele Erkenntnisse liefern:

  • Sie können bestimmen, wie viele Datenquellen vorhanden sind und wie viele Überschneidungen vorhanden sind.

  • Sie können Lücken im Wissen über diese Datenquellen identifizieren.

  • Möglicherweise stellen Sie fest, dass Sie in einem Geschäftsbereich viele doppelte Daten und in einem anderen Bereich fast keine Daten haben.

  • Sie können feststellen, dass Sie auf Daten von Drittanbietern angewiesen sind, die nicht so genau sind, wie sie sein sollten.

Verbringen Sie die Zeit, die Sie für diesen Erkennungsprozess benötigen, da dies die Grundlage für Ihre Planung und Ausführung Ihrer Big-Data-Strategie bildet.

Big Data für Dummies Cheat Sheet - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...