Inhaltsverzeichnis:
Video: What is Middleware? Service Oriented Architecture Explained 2024
Sie sollten zwei verschiedene Qualitätssicherungsdienste (Quality Assurance, QS) im Middleware-Fluss einrichten. Sie müssen die ersten QA-Tasks für den Extrakt aus der Datenquelle ausführen, bevor Sie weitere Middleware-Services ausführen.
Datenqualitätssicherung: Teil I
Versuchen Sie, Fehler und Probleme so früh wie möglich zu erfassen (und zu korrigieren). Das Verschieben von Daten in der Pipeline in Richtung des Data Warehouse ist sinnlos, wenn die Probleme so gravierend sind, dass sie entweder deutlich mehr Aufwand erfordern, um sie später im Prozess zu korrigieren, oder einfach nicht korrigiert werden können.
Also, welche Arten von Problemen sollten Sie suchen? Hier einige Beispiele:
-
Werte in Datenelementen, die eine angemessene Bandbreite überschreiten: Ein Kunde hat im letzten Monat beispielsweise 150 Millionen Bestellungen eingereicht oder ein Mitarbeiter hat 4 297 Jahre mit dem Unternehmen gearbeitet. entsprechend der Mitarbeiterdatenbank und dem hinterlegten Einstellungsdatum.
-
Werte in Datenelementen, die nicht in die offizielle und vollständige Liste der zulässigen Werte passen: Ein Wert kann beispielsweise einen A-Code haben, wenn die einzigen zulässigen Werte für dieses Feld M und F sind. dieses Feld wurde als GENDER bezeichnet, A könnte für androgyne stehen!)
-
Tabellenübergreifende Inkonsistenzen: Für Einträge in der Tabelle CUSTOMER_ORDER existieren keine entsprechenden Einträge (wie durch CUSTOMER_ID angegeben) in der CUSTOMER_MASTER_TABLE.
-
Feldübergreifende Inkonsistenzen: Datensätze mit einem falschen Status oder einer falschen Postleitzahl für die angegebene Stadt.
-
Fehlende Werte: Datensätze mit fehlenden Werten in bestimmten Feldern, in denen sie Inhalte enthalten sollen.
-
Datenlücken: Eine Quellentabelle sollte z. B. eine Datenzeile enthalten, die die gesamten verkauften Einheiten und die Verkaufspreise für jeden Monat der letzten zwei Jahre enthält. Für eine große Anzahl von Kunden existieren jedoch für mindestens einen dieser Monate keine Zeilen.
-
Unvollständige Daten: Wenn Informationen über jedes Produkt, das das Unternehmen verkauft, verfügbar sein sollen, sind beispielsweise alle Produkte im Extrakt enthalten?
-
Verstöße gegen Geschäftsregeln: Wenn eine Geschäftsregel besagt, dass nur ein Großhändler Produkte an einen der Kunden des Unternehmens verkaufen kann, sollten Sie prüfen, ob Kundendatensätze Verkäufe durch mehr als einen Großhändler anzeigen. könnte falsche Daten in der Quelle anzeigen.
-
Datenbeschädigung seit dem letzten Extrakt: Wenn die Extraktion beispielsweise monatlich erfolgt, sollten Sie Datenwerte oder Summen verfolgen, die konstant sein sollten, wie VERKÄUFE PRO KUNDE PRO MONAT.Wenn sich in einem folgenden Monat der Wert von VERKÄUFE PRO KUNDE PRO MONAT für einen bestimmten Kunden für einen vorherigen Monat ändert, sind die zugrunde liegenden Daten möglicherweise beschädigt.
-
Rechtschreibinkonsistenzen: Der Name eines Kunden wird zum Beispiel auf verschiedene Arten geschrieben.
Was machst du, wenn du Probleme findest? Sie können eine der folgenden Techniken ausprobieren:
-
Wenden Sie eine automatische Korrekturregel an. Wenn Sie eine inkonsistente Schreibweise finden, führen Sie beispielsweise eine Suche in einer Haupttabelle mit früheren Rechtschreibkorrekturen durch und nehmen Sie automatisch die Änderung in den Daten vor.
-
Legen Sie den Datensatz für ein Teammitglied beiseite, um ihn später zu analysieren und zu korrigieren. In diesem Fall könnten Sie den menschlichen Teil der QS in Verbindung mit der automatischen Korrektur durchführen.
Zum Beispiel werden automatische Korrekturen vorgenommen, wenn möglich, und ein Bericht über andere Probleme wird in eine separate Datei geschrieben und an die QS-Person gesendet. Wenn die QA-Person alle manuellen Korrekturen vornimmt, fügen Sie die Korrekturen wieder in die Daten ein, die den automatischen QA-Prozess durchlaufen haben.
-
Kühle deine Düsen. Wenn Sie genügend Probleme entdecken, die schwerwiegend sind oder eine unbestimmte Menge an Forschung erfordern, sollten Sie den gesamten Prozess anhalten, bis Sie das Problem gefunden und behoben haben.
Sie können den QA-Prozess effizienter und weniger problematisch gestalten, wenn Sie eine gründliche Quellsystemanalyse durchführen. Wenn Sie eine ziemlich gute Vorstellung darüber, welche Arten von Daten Probleme haben Sie in jeder Datenquelle finden können, können Sie Ihr QA-Prozess zu erkennen umprogrammieren und (hoffentlich) zu korrigieren, diese Probleme, bevor Sie fortfahren.
In der Vergangenheit haben Organisationen den Data-Warehouse-QA-Prozess als einen einseitigen Fluss behandelt. Probleme werden korrigiert, bevor die Daten weiter in den Prozess der Middleware-Prozesse verschoben werden, aber niemals in den Datenquellen korrigiert werden. Die meisten neuen Data Warehouses verfügen über eine integrierte Feedback-Schleife aus dem QA-Prozess, die Datenqualitätsprobleme in den Quelldaten korrigiert.
Datenqualitätssicherung: Teil II
Nach Abschluss der Transformationsprozesse müssen die Daten erneut überprüft werden. Sie wissen nie, welche Art von Fehlern oder Diskrepanzen der Umwandlungsprozess in die Daten eingeführt haben könnte. Nach erfolgten Änderungen sind alle früheren QA-Prozesse nicht mehr gültig.
Führen Sie die konsolidierten, transformierten Daten durch die gleiche Art von QS-Schritten aus, die hier beschrieben werden. Obwohl Sie wahrscheinlich nicht so viele rudimentäre Fehler (wie Rechtschreibfehler oder Werte, die außerhalb des Bereichs liegen), wenn Sie eine gründliche Arbeit geleistet hat auf Ihrer QA der ersten Ebene, möchten Sie immer noch sicher machen. Darüber hinaus zu gewährleisten, dass der Code oder Scripts für die Datentransformation verwendet nicht versehentlich neue Fehler verursachten einschleichen.
Das Ziel dieser QA zweite Ebene, um sicherzustellen, dass die konsolidierten und die transformierten Daten bereit sind, in denen laden Data Warehouse - sobald ein weiterer Schritt erfolgt, falls erforderlich.