Tout ce que vous avez toujours voulu savoir sur le Data Lineage
Guillaume Bodet - CEO - Zeenea
Découvrez tous les secrets et bonnes pratiques du Data Lineage en téléchargeant notre guide gratuit : "Tout ce que vous avez toujours voulu savoir sur le Data Lineage".
Overview
Data Quality usually refers to a company’s ability to ensure the longevity of its data. At Zeenea (a data catalog provider), we believe Data Quality is ensured through the 9 following dimensions - all essential to extract value to your company:
🔸 Completeness
🔸 Accuracy
🔸 Validity
🔸 Uniqueness
🔸 Consistency
🔸 Timeliness
🔸 Traceability
🔸 Clarity
🔸 Availability
We will detail these dimensions with the help of a simple example in part one. We will then elaborate on how Data Quality management is an important challenge for organizations seeking to extract maximum value from their data.
We will also draw parallels between these different Data Quality dimensions and the different risk management phases to overcome - identification, analysis, evaluation, and processing. This will enable you to hone your risk management reflexes by tying in Data Quality improvement processing to a company objective (and evaluating the ROI on each quality dimension).
Once we have established the main features of an enterprise Data Quality management tool, we will detail how a Data Catalog - though not a Data Quality tool - can contribute towards Data Quality improvement (through the clarity, availability, and traceability dimensions mentioned above).
Présentation
En tant que CEO et Directeur Produit chez Zeenea, un éditeur de Data Catalog nouvelle génération, j’ai souvent l’occasion de discuter avec des clients, des prospects ou des partenaires sur leurs attentes en matière de gestion de métadonnées.
Dans nos discussions, un sujet revient de façon récurrente : le Data Lineage.
Le sujet semble universel : quel que soit le secteur d’activité, toutes les parties prenantes dans une organisation Data cherchent à connaître l’origine (lineage amont) et la destination (lineage aval) des données qu’elles sont amenées à manipuler ou interpréter. Et cette préoccupation est sous-tendue par des motifs puissants.
Pour un éditeur de Data Catalog, la capacité à gérer le Data Lineage est une composante incontournable de son offre. Mais comme souvent, derrière une question simple et universelle se cache un monde de complexité difficilement appréhensible.
Cette complexité tient selon moi à plusieurs éléments :
💡 Le premier est que si la question est toujours la même, la réponse attendue est très différente selon le prisme de l’interlocuteur,
💡 Le second est plutôt opérationnel - comment capturer, maintenir et mettre à jour l’énorme masse d’information que représente le lineage ?
💡 Le dernier est d’ordre ergonomique. Comment restituer de façon digeste et pertinente un tel volume d’informations ?
Ce sont ces différents aspects que je vais développer dans ce document - en précisant à chaque fois les approches que nous privilégions chez Zeenea.