Zuhause Persönliche Finanzen Big Data für Dummies Cheat Sheet - Dummies

Big Data für Dummies Cheat Sheet - Dummies

Video: TI-83+/84 GC Cheat Sheet Generator [Java] 2025

Video: TI-83+/84 GC Cheat Sheet Generator [Java] 2025
Anonim

Von Judith Hurwitz, Alan Nugent und Fern Halper, Marcia Kaufman

Unternehmen müssen einen praktischen Weg finden, mit Big Data umzugehen, um wettbewerbsfähig zu bleiben - um neue Wege zu finden, um wachsende Mengen zu erfassen und zu analysieren von Informationen über Kunden, Produkte und Dienstleistungen. Daten werden auf strukturierte und unstrukturierte Weise immer komplexer. Neue Datenquellen kommen von Maschinen wie Sensoren; soziale Geschäftsseiten; und Website-Interaktion, z. B. Click-Stream-Daten. Um diese sich ändernden Geschäftsanforderungen zu erfüllen, müssen die richtigen Informationen zur richtigen Zeit verfügbar sein.

Big Data definieren: Volumen, Geschwindigkeit und Vielfalt

Mit Big Data können Unternehmen große Mengen unterschiedlicher Daten in der richtigen Geschwindigkeit und zum richtigen Zeitpunkt speichern, verwalten und bearbeiten. Um die richtigen Einsichten zu erhalten, werden Big Data in der Regel nach drei Merkmalen aufgeschlüsselt:

  • Volume: Wie viele Daten

  • Velocity: Wie schnell Daten verarbeitet werden

  • Variety: Die verschiedenen Datentypen

Während es praktisch ist, Big Data in die drei Vs zu vereinfachen, kann es irreführend und zu einfach sein. Zum Beispiel können Sie eine relativ kleine Menge sehr unterschiedlicher, komplexer Daten verwalten oder Sie verarbeiten sehr viele sehr einfache Daten. Diese einfachen Daten können alle strukturiert oder alle unstrukturiert sein.

Noch wichtiger ist das vierte V, Wahrhaftigkeit. Wie genau sind diese Daten bei der Vorhersage des Geschäftswerts? Machen die Ergebnisse einer Big-Data-Analyse tatsächlich Sinn? Daten müssen auf der Grundlage von Genauigkeit und Kontext verifiziert werden können. Ein innovatives Unternehmen möchte vielleicht in der Lage sein, riesige Datenmengen in Echtzeit zu analysieren, um schnell den Wert dieses Kunden und das Potenzial zu bewerten, diesem Kunden zusätzliche Angebote zu unterbreiten. Es ist notwendig, die richtige Menge und Art von Daten zu identifizieren, die in Echtzeit analysiert werden können, um die Geschäftsergebnisse zu beeinflussen.

Big Data umfasst alle Arten von Daten, einschließlich strukturierter Daten und unstrukturierter Daten aus E-Mails, sozialen Medien, Text-Streams und so weiter. Diese Art der Datenverwaltung erfordert, dass Unternehmen sowohl strukturierte als auch unstrukturierte Daten nutzen.

Unstrukturierte Daten verstehen

Unstrukturierte Daten unterscheiden sich von strukturierten Daten dadurch, dass ihre Struktur nicht vorhersehbar ist. Beispiele für unstrukturierte Daten sind Dokumente, E-Mails, Blogs, digitale Bilder, Videos und Satellitenbilder. Es enthält auch einige Daten, die von Maschinen oder Sensoren erzeugt werden. In der Tat sind unstrukturierte Daten für die Mehrheit der Daten verantwortlich, die sowohl in Ihrem Unternehmen als auch außerhalb Ihres Unternehmens in privaten und öffentlichen Online-Quellen wie Twitter und Facebook gespeichert sind.

In der Vergangenheit konnten die meisten Unternehmen diese große Datenmenge weder erfassen noch speichern. Es war einfach zu teuer oder zu überwältigend. Selbst wenn Unternehmen in der Lage waren, die Daten zu erfassen, verfügten sie nicht über die Werkzeuge, um die Daten einfach zu analysieren und die Ergebnisse für Entscheidungen zu nutzen. Nur wenige Tools könnten diese riesigen Datenmengen sinnvoll erfassen. Die Werkzeuge, die existierten, waren komplex zu benutzen und brachten keine Ergebnisse in einem vernünftigen Zeitrahmen hervor.

Am Ende waren diejenigen, die wirklich zu dem enormen Aufwand bei der Analyse dieser Daten gehen wollten, gezwungen, mit Momentaufnahmen von Daten zu arbeiten. Dies hat den unerwünschten Effekt, wichtige Ereignisse zu verpassen, da sie nicht in einer bestimmten Momentaufnahme enthalten waren.

Ein Ansatz, der immer mehr geschätzt wird, um aus unstrukturierten Daten einen geschäftlichen Nutzen zu ziehen, ist Textanalyse, die Analyse unstrukturierter Texte, die Extraktion relevanter Informationen und die Umwandlung in strukturierte Informationen, die dann auf verschiedene Weise genutzt werden. Die Analyse- und Extraktionsprozesse nutzen Techniken, die aus der Computerlinguistik, der Statistik und anderen Informatikdisziplinen stammen.

Die Rolle traditioneller Betriebsdaten in der Big Data-Umgebung

Zu ​​wissen, welche Daten gespeichert werden und wo sie gespeichert werden, sind wichtige Bausteine ​​in Ihrer Big-Data-Implementierung. Es ist unwahrscheinlich, dass Sie RDBMS für den Kern der Implementierung verwenden, aber es ist sehr wahrscheinlich, dass Sie sich auf die in RDBMS gespeicherten Daten verlassen müssen, um für das Geschäft mit Big Data den höchsten Wert zu schaffen.

Die meisten großen und kleinen Unternehmen speichern ihre wichtigsten betrieblichen Informationen wahrscheinlich in relationalen Datenbankverwaltungssystemen (RDBMS), die auf einer oder mehreren Beziehungen aufbauen und durch Tabellen dargestellt werden. Diese Tabellen sind durch die Art der Speicherung der Daten definiert. Die Daten werden in Datenbankobjekten namens Tabellen gespeichert, die in Zeilen und Spalten organisiert sind. RDBMS folgen einem konsistenten Ansatz bei der Art und Weise, wie Daten gespeichert und abgerufen werden.

Um den größtmöglichen geschäftlichen Nutzen aus Ihrer Echtzeitanalyse unstrukturierter Daten zu ziehen, müssen Sie diese Daten im Kontext mit Ihren historischen Daten zu Kunden, Produkten, Transaktionen und Vorgängen verstehen. Mit anderen Worten: Sie müssen Ihre unstrukturierten Daten in Ihre traditionellen Betriebsdaten integrieren.

Grundlagen der Big-Data-Infrastruktur

Bei Big Data geht es um hohe Geschwindigkeit, große Volumina und eine große Datenvielfalt, sodass die physische Infrastruktur die Implementierung buchstäblich "umsetzen" wird. Die meisten Big-Data-Implementierungen müssen hoch verfügbar sein, daher müssen die Netzwerke, Server und der physische Speicher robust und redundant sein.

Ausfallsicherheit und Redundanz sind miteinander verknüpft. Eine Infrastruktur oder ein System ist resistent gegenüber Ausfällen oder Änderungen, wenn ausreichend redundante Ressourcen vorhanden sind, die bereit sind, in Aktion zu treten. Ausfallsicherheit hilft, einzelne Fehlerquellen in Ihrer Infrastruktur zu beseitigen. Wenn zum Beispiel nur eine Netzwerkverbindung zwischen Ihrem Unternehmen und dem Internet besteht, haben Sie keine Netzwerkredundanz und die Infrastruktur ist nicht widerstandsfähig in Bezug auf einen Netzwerkausfall.

In großen Rechenzentren mit Business-Continuity-Anforderungen ist die Redundanz größtenteils vorhanden und kann genutzt werden, um eine Big Data-Umgebung zu schaffen. Bei neuen Implementierungen sind die Entwickler dafür verantwortlich, die Bereitstellung basierend auf Kosten und Leistung auf die Anforderungen des Unternehmens abzustimmen.

Verwalten von Big Data mit Hadoop: HDFS und MapReduce

Hadoop, ein Open-Source-Software-Framework, verwendet HDFS (das Hadoop Distributed File System) und MapReduce, um Big Data auf Clustern von Standardhardware zu analysieren. verteilte Rechnerumgebung.

Das Hadoop Distributed File System (HDFS) wurde entwickelt, um es Unternehmen zu ermöglichen, riesige Datenmengen einfacher und pragmatischer zu verwalten. Mit Hadoop können große Probleme in kleinere Elemente zerlegt werden, sodass die Analyse schnell und kostengünstig durchgeführt werden kann. HDFS ist ein vielseitiger, flexibler, geclusterter Ansatz zum Verwalten von Dateien in einer Big Data-Umgebung.

HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr ist es ein Daten- "Dienst", der einen einzigartigen Satz von Fähigkeiten bietet, die benötigt werden, wenn Datenvolumen und Geschwindigkeit hoch sind.

MapReduce ist ein Software-Framework, mit dem Entwickler Programme schreiben können, die große Mengen unstrukturierter Daten parallel über eine verteilte Gruppe von Prozessoren verarbeiten können. MapReduce wurde von Google entwickelt, um im Batch-Modus eine Reihe von Funktionen effizient gegen eine große Datenmenge auszuführen.

Die Komponente "map" verteilt das Programmierproblem oder die Tasks über eine große Anzahl von Systemen und übernimmt die Verteilung der Tasks so, dass die Last ausgeglichen und die Wiederherstellung nach Fehlern verwaltet wird. Nachdem die verteilte Berechnung abgeschlossen ist, aggregiert eine andere Funktion namens "reduzieren" alle Elemente wieder zusammen, um ein Ergebnis zu liefern. Ein Beispiel für die Verwendung von MapReduce wäre die Bestimmung, wie viele Seiten eines Buchs in jeweils 50 verschiedenen Sprachen geschrieben werden.

Den Grundstein für Ihre Big Data-Strategie legen

Unternehmen schwimmen in Big Data. Das Problem ist, dass sie oft nicht wissen, wie sie diese Daten pragmatisch nutzen können, um die Zukunft vorhersagen zu können, wichtige Geschäftsprozesse auszuführen oder einfach nur neue Erkenntnisse zu gewinnen. Das Ziel Ihrer Big-Data-Strategie und Ihres Plans sollte darin bestehen, einen pragmatischen Weg zu finden, um Daten für besser vorhersagbare Geschäftsergebnisse nutzbar zu machen.

Beginnen Sie Ihre Big-Data-Strategie, indem Sie einen Erkennungsprozess einleiten. Sie müssen wissen, welche Daten Sie bereits haben, wo sie sich befinden, wer sie besitzt und kontrolliert und wie sie derzeit verwendet werden. Welche Datenquellen von Drittanbietern benötigen beispielsweise Ihr Unternehmen? Dieser Prozess kann Ihnen viele Erkenntnisse liefern:

  • Sie können bestimmen, wie viele Datenquellen vorhanden sind und wie viele Überschneidungen vorhanden sind.

  • Sie können Lücken im Wissen über diese Datenquellen identifizieren.

  • Möglicherweise stellen Sie fest, dass Sie in einem Geschäftsbereich viele doppelte Daten und in einem anderen Bereich fast keine Daten haben.

  • Sie können feststellen, dass Sie auf Daten von Drittanbietern angewiesen sind, die nicht so genau sind, wie sie sein sollten.

Verbringen Sie die Zeit, die Sie für diesen Erkennungsprozess benötigen, da dies die Grundlage für Ihre Planung und Ausführung Ihrer Big-Data-Strategie bildet.

Big Data für Dummies Cheat Sheet - Dummies

Die Wahl des Herausgebers

Was Sie über den Makler und die Hauptbeziehung für die Immobilienlizenzprüfung wissen sollten - Dummies

Was Sie über den Makler und die Hauptbeziehung für die Immobilienlizenzprüfung wissen sollten - Dummies

Die Elemente der Verantwortung eines Agenten gegenüber dem Auftraggeber werden in einem Wort zusammengefasst - Treuhänder. Die Immobilienlizenzprüfung wird zweifellos Fragen zu diesen Treuhandpflichten stellen. Treuhänder bedeutet treuer Diener, und ein Agent ist der Treuhänder des Auftraggebers. Der Vertreter vertritt getreu die Interessen des Auftraggebers vor allen anderen ...

Erkennen Miller Analogie Test 1: 3, 2: 4 Analogien - Dummies

Erkennen Miller Analogie Test 1: 3, 2: 4 Analogien - Dummies

The Der Miller Analogies Test (MAT) ist ein standardisierter Test, der normalerweise für die Zulassung von Absolventen verwendet wird. Der Test besteht vollständig aus Analogien. Der Miller Analogies Test verwendet mehrere Analogtypen wie 1: 3, 2: 4. Die Erkennung der Art der verwendeten Analogie spielt eine entscheidende Rolle bei der Auswahl der richtigen Antwort für diese Frage. ...

Erkennen Miller Analogie Test 1: 2, 3: 4 Analogien - Dummies

Erkennen Miller Analogie Test 1: 2, 3: 4 Analogien - Dummies

The Der Miller Analogies Test (MAT) ist ein standardisierter Test, der normalerweise für die Zulassung von Absolventen verwendet wird. Der Test besteht vollständig aus Analogien. Der Miller Analogies Test verwendet mehrere Analogtypen wie 1: 2, 3: 4. Die Erkennung der Art der verwendeten Analogie spielt eine entscheidende Rolle bei der Auswahl der richtigen Antwort für diese Frage. ...

Die Wahl des Herausgebers

Excel-Dashboards und -Berichte: So führen Sie Makros aus - Dummies

Excel-Dashboards und -Berichte: So führen Sie Makros aus - Dummies

Makros sind sehr nützlich für Ihre Excel Dashboards und Berichte. Um Ihre Makros in Aktion zu sehen, wählen Sie den Befehl Makros auf der Registerkarte Entwickler. Das in dieser Abbildung gezeigte Dialogfeld wird angezeigt, in dem Sie das Makro auswählen können, das Sie ausführen möchten. Wählen Sie das AddDataBars-Makro aus, und klicken Sie auf die Schaltfläche Ausführen. Wenn alles gut geht, ...

Excel-Dashboards und Berichte: Halten Sie Ihre Pivot-Tabelle frisch - Dummies

Excel-Dashboards und Berichte: Halten Sie Ihre Pivot-Tabelle frisch - Dummies

So langweilig wie Ihre Pivot-Tabellen Wie es scheint, werden sie schließlich zu den Stars Ihrer Excel-Berichte und Dashboards. Es ist daher wichtig, dass Sie Ihre Pivottabellen frisch und relevant halten. Im Laufe der Zeit können sich Ihre Daten mit neu hinzugefügten Zeilen und Spalten ändern und wachsen. Die Aktion der Aktualisierung Ihrer Pivot-Tabelle mit diesen ...

Excel 2010 Für Dummies Cheat Sheet - Dummies

Excel 2010 Für Dummies Cheat Sheet - Dummies

Auf den ersten Blick kann es schwierig sein, die vielen Menüs zu verstehen , Tabulatoren, Spalten und Zeilen der Excel 2010-Benutzeroberfläche. Dieser Cheat Sheet hilft Ihnen jedoch, Ihren Weg zu navigieren, indem Sie Tastenanschläge für die Bewegung des Zellen-Cursors zu einer neuen Zelle zeigen, einfache Regeln für die Dateneingabe-Etikette, häufige Ursachen einiger ...

Die Wahl des Herausgebers

Verwendung von Web Stats zur Verbesserung Ihrer Website - Dummies

Verwendung von Web Stats zur Verbesserung Ihrer Website - Dummies

Leute mögen nicht langsame Webseiten. Die Verwendung von Webstatistiken kann sicherstellen, dass Sie keine haben. Heutzutage werden wir alle durch schnelle Internetverbindungen verwöhnt, und Forschungsergebnisse zeigen, dass Webnutzer auf eine andere Website klicken, wenn Ihre Website mehr als zwei Sekunden benötigt, um sie zu öffnen. Eine schnellere Site behält mehr Besucher. mit einem langsameren ...

Webhost-Systemsteuerungsoptionen - dummies

Webhost-Systemsteuerungsoptionen - dummies

Sie haben mehrere Optionen für Web gehostete Control Panels. Die beliebteste und offensichtlichste Wahl ist cPanel. cPanel ist aufgrund seiner Balance zwischen Flexibilität und Benutzerfreundlichkeit eine gute Wahl für Bedienfelder. Die Wahl des Bedienfelds ist jedoch eine Frage der persönlichen Vorlieben und Sie müssen eines finden, das am besten passt ...

Zehn Essential Online Web Hosting Ressourcen - Dummies

Zehn Essential Online Web Hosting Ressourcen - Dummies

Bücher sind großartige Referenzen, aber es gibt auch einige wirklich gute Web-Hosting-Ressourcen online verfügbar, um Ihnen zusätzliche Informationen zu geben, wenn Sie nicht finden können, was Sie brauchen. Haben Sie keine Angst, das Internet zu überprüfen. ZeltBlogger. com TentBlogger. com ist im Besitz und geschrieben von John Saddington. Es ist wahrscheinlich die beste Online-Ressource für praktisch alles mit ...