Business Glossary: Wesentlicher Bestandteil eines Datenkatalogs für datengetriebene Unternehmen
"Ein gutes Datenkatalog-Tool muss in der Lage sein, Geschäftskonzepte zu verwalten, sie mit technischen Assets zu verknüpfen und so die Nutzung des Katalogs für das gesamte Unternehmen zu öffnen."
Overview
Data Quality usually refers to a company’s ability to ensure the longevity of its data. At Zeenea (a data catalog provider), we believe Data Quality is ensured through the 9 following dimensions - all essential to extract value to your company:
🔸 Completeness
🔸 Accuracy
🔸 Validity
🔸 Uniqueness
🔸 Consistency
🔸 Timeliness
🔸 Traceability
🔸 Clarity
🔸 Availability
We will detail these dimensions with the help of a simple example in part one. We will then elaborate on how Data Quality management is an important challenge for organizations seeking to extract maximum value from their data.
We will also draw parallels between these different Data Quality dimensions and the different risk management phases to overcome - identification, analysis, evaluation, and processing. This will enable you to hone your risk management reflexes by tying in Data Quality improvement processing to a company objective (and evaluating the ROI on each quality dimension).
Once we have established the main features of an enterprise Data Quality management tool, we will detail how a Data Catalog - though not a Data Quality tool - can contribute towards Data Quality improvement (through the clarity, availability, and traceability dimensions mentioned above).
Vorstellung
Bei der Implementierung eines Datenkatalogs besteht der erste Schritt üblicherweise in dessen Verbindung mit einer oder mehreren Datenquellen und den physischen Systemen, in denen Datenbestände gespeichert sind. Die dann erfolgende Bestandsaufnahme ermöglicht es, eine erste Ebene von Informationen zu erhalten: Speichersystem, Standort, Zugriffsbedingungen, Formate, Typen usw.
Beim automatisierten Import von Metadaten wird eine Reihe von Informationen abgerufen, die oftmals eine detaillierte technische Dokumentation der Inhalte des Informationssystems liefern. Innerhalb des Datenkatalogs kann diese dann durch die Nutzer um die nötigen Klassifizierungen ergänzt werden, um das technische Ökosystem des Unternehmens so präzise wie möglich zu beschreiben.
Die nun im Datenkatalog vorhandenen Informationen sind vor allem für die technisch versierteren Nutzer (Data Engineers, Architects usw.) hilfreich, bleiben für eine große Gruppe von Datenkonsumenten im Unternehmen jedoch unklar: sie können keinen effektiven Nutzen aus der technischen Dokumentation der Daten ziehen.
Um den gesamten Kontext der Daten abzubilden, benötigen die Nutzer verschiedene Arten von Informationen, die bspw. organisatorischer, statistischer oder gesetzlicher Natur und damit für die Nutzung der Daten erforderlich sind.
Insbesondere muss die technische Dokumentation Hand in Hand mit den sogenannten semantischen Informationen gehen. Dies ist das Ziel eines Business Glossaries.