E-BOOK

Qu'est-ce qu'un Smart Data Catalog ?

Et pourquoi il ne s'agit pas uniquement de machine learning

Guillaume Bodet - CEO - Zeenea

"Depuis quelques années déjà, la notion de Smart Data Catalog fait son apparition dans la littérature dédiée à la gestion de métadonnées. Comme beaucoup de concepts dans l’univers technologique, le Smart Data Catalog n’a pas de définition formelle. Cependant, il évoque immanquablement l’idée qu’un catalogue de données moderne doit embarquer des capacités de machine learning ou d’intelligence artificielle.

Dans ce document, nous allons chercher à développer comment Zeenea aborde cette notion de Smart Data Catalog, à travers 5 domaines ne faisant pour la plupart pas appel au machine learning."

smart-data-catalog-mockup-fr (1)

Overview

Data Quality usually refers to a company’s ability to ensure the longevity of its data. At Zeenea (a data catalog provider), we believe Data Quality is ensured through the 9 following dimensions - all essential to extract value to your company:

🔸 Completeness

🔸 Accuracy

🔸 Validity 

🔸 Uniqueness

🔸 Consistency

🔸 Timeliness

🔸 Traceability

🔸 Clarity

🔸 Availability


We will detail these dimensions with the help of a simple example in part one. We will then elaborate on how Data Quality management is an important challenge for organizations seeking to extract maximum value from their data.

We will also draw parallels between these different Data Quality dimensions and the different risk management phases to overcome - identification, analysis, evaluation, and processing. This will enable you to hone your risk management reflexes by tying in Data Quality improvement processing to a company objective (and evaluating the ROI on each quality dimension).

Once we have established the main features of an enterprise Data Quality management tool, we will detail how a Data Catalog - though not a Data Quality tool - can contribute towards Data Quality improvement (through the clarity, availability, and traceability dimensions mentioned above).

Présentation

Un système d’information, même de taille modeste, comprend typiquement plusieurs dizaines de systèmes et applications stockant des données via des dispositifs technologiques très hétéroclites (base de données relationnelles ou non relationnelles, systèmes de fichiers distribués, APIs, solutions cloud, etc), selon des protocoles, des formats et des règles qui leurs sont propres.

Chacun de ces systèmes gère quelques centaines voire quelques milliers de jeux de données - typiquement des tables ou des fichiers - constitués eux-mêmes de quelques dizaines de champs (ou colonnes). Et pour chacun de ces jeux de données et chacun de ces champs, il faut alimenter un métamodèle (c’est-à-dire un ensemble structuré de métadonnées) qui va permettre d’exploiter les datas.

Au final, le data catalog va devoir consolider des millions d’informations de nature très diverses - et ce volume croît de façon exponentielle, au même titre que celui des données exploitables à proprement parler. Cette volumétrie d’informations va soulever deux problèmes majeurs :

💡  Comment alimenter et maintenir ce volume d’information sans exploser le coût de gestion des métadonnées ?

💡  Comment trouver le jeu de données le plus pertinent pour un cas d’usage donné ?

Selon nous, la notion de Smart Data Catalog n’est donc pas cantonnée à l’intégration d’algorithmes d’intelligence artificielle, mais plutôt à un ensemble de dispositifs technologiques et conceptuels que l’on qualifie de malins, et qui visent à répondre aux deux questions précédentes.

Nous avons identifié 5 domaines dans lesquels un data catalog peut être Smart - la plupart ne faisant pas appel au machine learning :

🔸  La modélisation du métamodèle

🔸  L’inventaire des données

🔸  La gestion de métadonnées

🔸  Le moteur de recherche

🔸  L’expérience utilisateur

Ils nous font confiance


et bien d'autres encore...