Blindes Vertrauen ist keine BI-Strategie: Warum du Datenvalidierung brauchst
Shownotes
Inhalt dieser Folge
- Was macht Daten valide? Die 5 wichtigsten Kriterien
- IT vs. Business – wer definiert Validierungsregeln?
- Warum manuelle Prüfungen keine Option sind
- Zentrale Regeln, tägliche Checks & Transparenz im DWH
- Wie ein kleiner Fehler im HR-System fast große Auswirkungen gehabt hätte
- Fazit: Validierung als Erfolgsfaktor für vertrauenswürdige BI
- Unser Plug-and-Play-Validierungstool – Einladung zum Austausch
Transkript anzeigen
00:00:10: B.I.
00:00:10: Bytes, dein Podcast, der Business Intelligence Wissenswert auf den Punkt bringt.
00:00:16: Maximale Insights für smarte Entscheidungen, Kompakt und Praxisnah.
00:00:22: Herzlich willkommen zu einer neuen Folge von B.I.
00:00:25: Bytes.
00:00:26: Mein Name ist Adrian und was soll ich sagen?
00:00:29: Unser Podcast jährt sich im nächsten Monat zum ersten Mal.
00:00:34: Wow, die Zeit vergeht rückblickend dann doch immer schnell.
00:00:38: Aber wir konnten euch in dem vergangenen Jahr jeden Monat mit einem Thema aus dem Business Intelligence und Datenbereich versorgen.
00:00:46: Na ja, und natürlich hören wir jetzt nicht einfach auf, sondern arbeiten hinter den Kulissen weiter an spannenden Themen und auch Formaten.
00:00:54: Also sei an dieser Stelle mal hier.
00:00:55: ganz kurz gesagt, vielen Dank an unser Team im Hintergrund.
00:01:00: Ihr macht eine tolle Arbeit und ich gebe am Ende auch nur mal eine Stimme.
00:01:05: Aber kommen wir zu unserem heutigen Thema.
00:01:08: Der Datenvalidierung.
00:01:10: Das ist ein vielschichtiges Thema und wir versuchen es mal zu umreißen.
00:01:16: Am Ende habe ich auch einen Vorschlag für dich, wie auch du fleißig validieren kannst.
00:01:21: Zu Beginn möchte ich unseren Ferdi ins Boot holen.
00:01:28: Kannst du dich vielleicht schon an ihn erinnern?
00:01:31: In Folge Nummer drei zum Agilen Data Warehouse habe ich Ferdi vorgestellt.
00:01:35: Für dich nochmal ganz kurz, er ist DWH-Experte.
00:01:38: Mittlerweile ist er ein Jahr älter, hat zwei Kinder und spielt selbst zu dieser Jahreszeit weiterhin gerne Tennis.
00:01:46: Wenn es um Datenbanken geht, ist er ein absoluter Profi und er hat auch so langsam den Nutzen von Agilentäter Warehouses nachvollziehen können.
00:01:56: Wenn auch du das möchtest, dann hör doch gerne mal in Folge drei rein.
00:02:00: Naja, jedenfalls steckt Pferde dieses Mal in einem anderen Drama.
00:02:04: Er baut weiterhin das neue Data Warehouse für sein Unternehmen auf und leider, wie es immer so ist, unter Volllast.
00:02:11: Die Liste der Datenquellen, die er integrieren soll, die haben wir am letzten Mal schon besprochen, nun mal so viel.
00:02:16: Es ist weiterhin sehr, sehr sportlich, also Buchhaltungsdaten, Vertriebsdaten, Produktions- und Logistikdaten, HA-Daten, die er vorher auch nicht kannte, externe Quellen, Wechselkurse, Marktdaten.
00:02:28: und natürlich brauchen wir Planwerte, die wir gegen ist, vergleichen sollen.
00:02:31: Und die liegen wie immer in Excel vor.
00:02:34: Kurz gesagt, Ferdy lebt gerade irgendwie so ein ETL-Limbo und während er sich da so durchkämpft, stellt er fest, Moment mal, wie stelle ich eigentlich sicher, dass die Zahlen, die ich darüber ziehe, überhaupt stimmen?
00:02:50: Und schon ist Ferdy mitten im Thema der heutigen Folge Datenvalidierung.
00:02:57: Ferdy hat nämlich einen déjà vu.
00:02:59: In seinem alten Projekt gab es mal einen richtig schmerzhaften Moment.
00:03:03: Das Dashboard zeigte µm Umsatz, das ERP-System als Grundlage µm Umsatz und der CFO hatte in seiner Excel-Auswertung µm Umsatz.
00:03:23: Am Ende hat niemand mehr Vertrauen, nicht in die Zahlen, nicht in das Dashboard und auch nicht mehr in Ferdi als Personen.
00:03:31: Und genau das darf jetzt im neuen DWH auf keinen Fall noch mal passieren.
00:03:36: Also fragt sich Ferdi, was macht eigentlich ein Datensatz Valide?
00:03:42: Und wer entscheidet das?
00:03:47: Also beginnt Ferdi alles aufzudröseln, er schnappt sich ein Whiteboard und notiert.
00:03:52: Folgende Fragen.
00:03:53: Sind die Daten vollständig?
00:03:55: Sind sie plausibel?
00:03:57: Sind sie konsistent?
00:03:59: Sind sie aktuell?
00:04:01: Und passen die Daten zur Fachlogik.
00:04:06: Und genau an dieser Stelle macht es einfach Klick bei ihm.
00:04:10: Ein Datensatz ist nicht von Natur aus richtig oder falsch.
00:04:14: Ein Datensatz ist valide, wenn er die Regeln erfüllt, die wir ihm geben.
00:04:18: Das heißt, die Buchhaltung hat andere Regeln als der Vertrieb und der Vertrieb hat andere Regeln als HR.
00:04:25: Validität ist also ein Regelwerk und keine Gefühlssache.
00:04:31: Erinnerst du dich auch noch an Claudia, Ferdis Chefin?
00:04:34: Jedenfalls klopft sie an seine Tür und fragt, wie stellst du sicher, dass die Daten sauber sind?
00:04:41: Und Ferdig's prompte Antwort kommt darauf an, wie du fragst.
00:04:45: Und mit der Antwort hätte Claudia nur wirklich nicht gerechnet.
00:04:49: Ferdig erklärt ihr aber weiter, dass der Fachbereich weiß, was plausibel ist und die IT also Ferdig weiß, wie man es prüft.
00:04:57: Also schlägt er vor, dass wir Regeln brauchen, gemeinsame Regeln, die ihr es ganze technisch prüfen.
00:05:04: Claudia ist zufrieden und ergänzt, bitte auch automatisiert.
00:05:08: Wir haben einfach keine Zeit für manuelle Tests.
00:05:13: Ja, und seine Chefin hat da wirklich einen wichtigen Punkt angesprochen.
00:05:17: Die manuellen Überprüfung und Validierung kosten wirklich viel Zeit im Projekt.
00:05:22: Sicherlich zu Beginn bei der Entwicklung, wenn wir die ETL-Strecken aufbauen, ist dieses Vorgehen unumgänglich.
00:05:28: Aber wie sieht es danach aus?
00:05:29: Wie kann ich im produktiven Einsatz immer gewährleisten, dass die Regeln eingehalten werden?
00:05:34: Und in diesem Fall dann auch meine Datenvalide sind.
00:05:38: Naja, jedenfalls erstellt Ferdy zusammen mit dem Fachbereich so mal die ersten Regeln.
00:05:44: Jeder Kunde muss eine Kundennummer haben.
00:05:46: Negative Umsätze werden abgefangen.
00:05:49: Ein Mitarbeiter kann nicht gleichzeitig aktiv und gekündigt sein.
00:05:54: Ein Produktionsauftrag ohne Materialnummer ist ein Fehler.
00:05:58: Und ein Datum darf nicht in der Zukunft liegen.
00:06:02: Diese unterschiedlichen Regeln zu prüfen, ist wirklich viel Arbeit.
00:06:06: Und da die Daten täglich geladen werden, müssen wir uns hier etwas einfallen lassen.
00:06:10: Und für dieses erste Idee ist ja nur mal die WHO-Experte, diese Validierung technisch umzusetzen, und zwar erst mit SQL-Statements und dann am Ende auch mit gespeicherten Prozeduren, die ihr regelmäßig aufrufen kann.
00:06:23: Na ja, das klingt erstmal ganz solide, kann man so machen, aber nach ein paar Tagen denkt er sich, das jetzt jeden Tag auszufüllen und immer wieder neue Regeln hinzuzufügen.
00:06:35: Das wird echt Arbeit und da blickt auch keiner übersichtlich transparent mehr durch.
00:06:40: Es bedarf also hier ein System, einen Tool, was mich unterstützen kann.
00:06:44: Wenn wir länger drüber nachdenken oder vielleicht auch nur kurz drüber nachdenken, dann könnten wir Schluss folgern, dass dieses System zum einen die Validierungsregeln zentral definieren sollte können und diese Regeln natürlich auch täglich automatisch ausführt und vielleicht auch untertägig mehrfach ausführt.
00:07:02: Und wichtig ist, dass das Ergebnis auch transparent zurückgemeldet wird in so einem System.
00:07:09: Das heißt, der Vorteil insgesamt auch für Ferdy als DWH-Experte, er hat dann eben endlich einen Überblick, wie Valide die gesamte DWH-Landschaft ist.
00:07:19: Er kann also morgens auf einen Blick erkennen, wieviel Prozent Valide-Datensätze vorliegen.
00:07:25: Und an einem Tag stellt er beispielhaft plötzlich fest, dass nur zwei- neunzig Prozent der Daten im HR-Bereich Valide sind.
00:07:33: So.
00:07:34: Und normalerweise hätte Ferdi das erst Wochen später bemerkt, nämlich wenn das Dashboard falsche Zahlen zeigt und die HR-Kollegen misstrauisch werden.
00:07:44: Jetzt mit einem Tool, was automatisch das Ganze stützt, sieht er das natürlich sofort.
00:07:50: Es war ein kleiner Fehler im HR-Tool, d.h.
00:07:52: da wurde ein Update irgendwie drauf gefahren und die neuen Werte haben ein falsches Format geschrieben.
00:07:58: Und dank dieser Validierungsregeln, die man natürlich in so einem System hinterlegt, erkennt er, die Fehler werden identifiziert, das Problem wird eingegrenzt, der Fachbereich, in diesem Fall eben der HR, wird informiert und die Daten schnell korrigiert.
00:08:13: Und das Ganze bevor irgendwer im Unternehmen überhaupt falsche Desports gesehen hat.
00:08:19: Seine Chefin Claudia sagt dazu, fertig, genau so muss ein modernes DWH funktionieren.
00:08:26: Er hat im Grunde ein Frühwarnsystem für Datenqualität aufgebaut.
00:08:34: Kommen wir mal zu einem Fazit und was wir aus dem Beispiel von Ferdy mitnehmen.
00:08:41: Validierung ist nicht nur eine Technikaufgabe.
00:08:45: Validierung ist ein gemeinsames Regelwerk aus IT und Business und ohne Automatisierung entsteht leicht Chaos und natürlich viel Betriebsaufwand.
00:08:56: Wenn wir ein Stück Software dafür verwenden, dann haben wir transparente Regeln, tägliche Checks, ein klares Dashboard zur Datenqualität und endlich Ruhe vor zahlen Diskussionen mit dem Fachbereich.
00:09:11: Wenn du jetzt denkst, dass so ein Tool gar nicht so leicht zu entwickeln ist, dann habe ich da vielleicht was für dich.
00:09:17: Wir haben zusammen mit unseren Studierenden ein solches Validierungstool aufgebaut.
00:09:22: Es ist easy einzurichten und am Ende wirklich plug-and-play.
00:09:25: Wenn du also immer schon mal wissen wolltest, wie valide deine Unternehmensdaten im Data Warehouse sind.
00:09:31: Dann freue ich mich über deine Nachricht und wir zeigen dir mal die ganze Magie der Datenvalidierung.
00:09:38: Aber jetzt heißt es erst mal Schluss für heute.
00:09:41: Das war BI Bytes wie immer kurz und knackig.
00:09:45: Natürlich haben wir nicht alle Punkte der Validierung angesprochen.
00:09:49: Die können wir natürlich aber gemeinsam auch in einer Diskussion und einem Gespräch vertiefen.
00:09:53: Also wenn du Erfahrung hast oder Eine andere Meinung, dann freue ich mich auf deine Nachricht und würde sprechen einfach mal beim Käffchen oder beim Tee über das Thema Validierung von Daten.
00:10:05: Ich wünsche dir jetzt erstmal eine schöne Vorweihnachtzeit und freue mich, wenn du beim nächsten Mal wieder reinhörst.
00:10:11: Mach's gut!
00:10:29: Wir hören uns in der nächsten Folge.
Neuer Kommentar