Data lineage
Data Lineage en français "lignée des données" est un processus qui vise à fournir une cartographie du système d'information. Il permet une visualisation du cycle de vie de la donnée en vue de répondre aux questions suivantes : de quelle source provient cette donnée, et quelles transformations a-t-elle subies.
Cette thématique prend de l'importance avec l'arrivée du RGPD.
Le data Lineage comprend l’origine des données, ce qui leur arrive et où elles se déplacent au fil du temps. La traçabilité des données offre de la visibilité tout en simplifiant considérablement la possibilité de retracer les erreurs jusqu’à la cause première dans un processus d’analyse de données.
Il permet également de relire des parties ou des entrées spécifiques du flux de données pour un débogage par étapes ou la régénération de la sortie perdue. Les systèmes de base de données utilisent ces informations, appelées provenance des données, pour relever des problèmes similaires de validation et de débogage. La provenance des données fait référence aux enregistrements des entrées, des entités, des systèmes et des processus qui influencent les données d’intérêt, fournissant un enregistrement historique des données et de leurs origines. Les preuves générées prennent en charge les activités telles que l’analyse de la dépendance des données, la détection et la récupération des erreurs /compromissions, l’audit et l’analyse de la conformité.
La lignée des données peut être représentée visuellement pour découvrir le flux /mouvement des données de sa source à sa destination via divers changements et sauts sur son chemin dans l’environnement de l’entreprise, comment les données sont transformées en cours de route, comment la représentation et les paramètres changent, et comment les données se divisent ou convergent après chaque saut. Une représentation simple de la lignée de données peut être montrée avec des points et des lignes, où point représente un conteneur de données pour les points de données et les lignes les reliant représente les transformations subies par le point de données entre les conteneurs de données.
La représentation dépend largement de la portée de la gestion des métadonnées et du point d’intérêt de référence. La lignée de données fournit des sources de données et des sauts de flux de données intermédiaires à partir du point de référence avec une lignée de données en amont, conduit aux points de données de la destination finale et à ses flux de données intermédiaires avec une lignée de données directe. Ces vues peuvent être combinées avec une lignée de bout en bout pour un point de référence qui fournit une piste d’audit complète de ce point de données d’intérêt des sources à ses destinations finales. Au fur et à mesure que les points de données ou les sauts augmentent, la complexité d’une telle représentation devient incompréhensible. Ainsi, la meilleure caractéristique de la vue de lignage de données serait de pouvoir simplifier la vue en masquant temporairement les points de données périphériques indésirables. Les outils dotés de la fonction de masquage permettent l’évolutivité de la vue et améliorent l’analyse avec la meilleure expérience utilisateur pour les utilisateurs techniques et professionnels. La traçabilité des données permet également aux entreprises de tracer des sources de données d'activités métiers spécifiques à fins de suivi des erreurs, de mise en œuvre de modifications des processus et de mise en œuvre de migrations de systèmes pour économiser beaucoup de temps et de ressources, améliorant ainsi considérablement l’efficacité de la BI.
L’étendue de la lignée de données détermine le volume de métadonnées requis pour représenter sa lignée de données. Habituellement, la gouvernance et la gestion des données déterminent la portée de la lignée des données en fonction de leurs réglementations, de leur stratégie de gestion des données d’entreprise, de leur impact sur les données, de leurs attributs de reporting et des éléments de données critiques de l’organisation.
La lignée de données fournit la piste d’audit des points de données au niveau granulaire le plus élevé, mais la présentation de la lignée peut être effectuée à différents niveaux de zoom pour simplifier les vastes informations, similaires aux cartes Web analytiques. Le Data Lineage peut être visualisé à différents niveaux en fonction de la granularité de la vue. À un niveau très élevé, la lignée de données fournit les systèmes avec lesquels les données interagissent avant d’atteindre leur destination. Au fur et à mesure que la granularité augmente, elle monte au niveau du point de données où elle peut fournir les détails du point de données et son comportement historique, les propriétés des attributs, les tendances et la qualité des données transmises par ce point de données spécifique dans la lignée de données.
La gouvernance des données joue un rôle clé dans la gestion des métadonnées pour les lignes directrices, les stratégies, les politiques et la mise en œuvre. La qualité des données et la gestion des données de référence contribuent à enrichir la lignée des données avec plus de valeur commerciale. Même si la représentation finale de la lignée des données est fournie dans une interface, la façon dont les métadonnées sont récoltées et exposées à l’interface utilisateur graphique de la lignée de données pourrait être entièrement différente. Ainsi, la lignée de données peut être largement divisée en trois catégories en fonction de la manière dont les métadonnées sont collectées : la lignée de données impliquant des progiciels pour les données structurées, les langages de programmation et le Big Data.
Les informations de lignée des données comprennent les métadonnées techniques impliquant des transformations de données. Les informations enrichies sur la lignée des données peuvent inclure les résultats des tests de qualité des données, les valeurs des données de référence, les modèles de données, le vocabulaire commercial, les gestionnaires de données, les informations de gestion de programme et les systèmes d’information d’entreprise liés aux points de données et aux transformations. La fonction de masquage dans la visualisation de la lignée des données permet aux outils d’incorporer tous les enrichissements importants pour le cas d’utilisation spécifique. Pour représenter des systèmes disparates dans une vue commune, une « normalisation des métadonnées » ou une normalisation peut être nécessaire.
Références
modifierArticles connexes
modifierLiens externes
modifier- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Data lineage » (voir la liste des auteurs).
- https://www2.deloitte.com/fr/fr/pages/risque-compliance-et-controle-interne/articles/data-lineage-reduction-risques-efficacite-operationnelle.html