Was ist ein Smart Data Catalog?
Und warum es nicht nur um Machine Learning geht
Guillaume Bodet - CEO - Zeenea
"Bereits seit einigen Jahren taucht der Begriff Smart Data Catalog in der Literatur rund um das Metadaten-Management auf. Wie viele andere Konzepte in der Technologiewelt hat auch der Smart Data Catalog keine formale Definition. Die gängige Auffassung besagt jedoch, dass ein moderner Datenkatalog Maschinelles Lernen oder Künstliche Intelligenz nutzen sollte, um seine Fähigkeiten in verschiedenen Hinsichten zu verbessern.
In diesem Dokument möchten wir erläutern, wie Zeenea das Konzept des Smart Data Catalogs behandelt, und warum es sich nicht nur auf Machine-Learning-Funktionen beschränkt."
Overview
Data Quality usually refers to a company’s ability to ensure the longevity of its data. At Zeenea (a data catalog provider), we believe Data Quality is ensured through the 9 following dimensions - all essential to extract value to your company:
🔸 Completeness
🔸 Accuracy
🔸 Validity
🔸 Uniqueness
🔸 Consistency
🔸 Timeliness
🔸 Traceability
🔸 Clarity
🔸 Availability
We will detail these dimensions with the help of a simple example in part one. We will then elaborate on how Data Quality management is an important challenge for organizations seeking to extract maximum value from their data.
We will also draw parallels between these different Data Quality dimensions and the different risk management phases to overcome - identification, analysis, evaluation, and processing. This will enable you to hone your risk management reflexes by tying in Data Quality improvement processing to a company objective (and evaluating the ROI on each quality dimension).
Once we have established the main features of an enterprise Data Quality management tool, we will detail how a Data Catalog - though not a Data Quality tool - can contribute towards Data Quality improvement (through the clarity, availability, and traceability dimensions mentioned above).
Vorstellung
Ein Informationssystem, auch wenn es noch so klein ist, umfasst typischerweise mehrere Dutzend Systeme und Anwendungen, die Daten über heterogene Technologien und Plattformen (relationale oder nicht-relationale Datenbanken, verteilte Dateisysteme, APIs, Cloud-Lösungen usw.) nach eigenen Protokollen, Formaten und Regeln speichern.
Jedes dieser Systeme verwaltet Hunderte oder gar Tausende Datasets - typischerweise Tabellen oder Dateien -, die ihrerseits aus Dutzenden Fields (oder Spalten) bestehen. Und für jedes dieser Datasets und jedes Field muss ein Metamodell (d.h. ein strukturierter Satz von Metadaten) bereitgestellt werden, mit dessen Hilfe die Daten verwertet werden können.
Letztendlich muss der Datenkatalog Millionen von Informationen unterschiedlichster Art konsolidieren - und dieses Volumen wächst exponentiell, ebenso wie das Volumen der eigentlichen verwertbaren Daten. Diese Menge an Informationen wirft zwei Fragestellungen auf:
💡 Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
💡 Wie findet man das passende Dataset für einen bestimmten Use Case?
Unserer Meinung nach beschränkt sich der Begriff Smart Data Catalog also nicht auf die Integration von KI-Algorithmen, sondern bezieht sich vielmehr auf eine Reihe von technologischen und konzeptionellen Vorkehrungen, die wir als smart bezeichnen und die darauf abzielen, die beiden vorangegangenen Fragestellungen zu beantworten.
Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann - die meisten davon ohne Einsatz von Machine Learning:
🔸 Modellierung des Metamodells
🔸 Inventarisierung von Daten
🔸 Metadaten-Management
🔸 Suchmaschine
🔸 User Experience