Guide Ultime : Le Meilleur Catalogue de Données
Top 10 des plateformes de data gouvernance
Introduction
Au fil des dernières décennies, les organisations ont pris conscience de l'importance d'exploiter les données. Nous assistons à une véritable "course aux données" où les entreprises cherchent à recruter les meilleurs talents en matière de données. Cependant, ces même talents se retrouvent souvent frustrés car ils passent la majeure partie de leur temps à traiter des problématiques ennuyeuses :
- Où puis-je trouver les meilleures données pour répondre à ma question ?
- Que signifie le nom de cette colonne ?
- Est-elle fiable?
- Quand a-t-elle été mise à jour pour la dernière fois et comment a-t-elle été créée ?
- À qui puis-je m'adresser en cas de problème ?
- Quelqu'un a-t-il déjà travaillé sur cette question ?
Ainsi, les professionnels des données consacrent davantage de temps à la gestion des métadonnées qu'à la réalisation d'analyses de données pertinentes. Heureusement, les catalogues de données sont des outils qui peuvent les aider à résoudre ces problèmes. Cependant, avec la multiplication des outils disponibles sur le marché, il devient difficile de faire un choix éclairé. C'est pourquoi nous vous proposons ce comparatif pour vous aider à naviguer dans l’écosystème complexe qu’est celui des catalogues de données.
Qu'est-ce qu'un catalogue de données ?
Selon Gartner, une entreprise spécialisée dans la recherche, un catalogue de données est un instrument qui élabore et préserve un inventaire des ressources de données, en identifiant, caractérisant et structurant les ensembles de données éparpillés. Il offre un contexte permettant aux différents professionnels des données (les data analysts, data engineers, data scientists, etc.) de trouver et comprendre les ensembles de données pertinents pour en extraire de la valeur commerciale.
Quel catalogue de données choisir ?
Cliquez ici pour obtenir une vision complète de l’écosystème des catalogues de données.
Il existe trois générations d'outils de catalogues de données :
- 1ère génération : logiciel basique, similaire à Excel, qui se synchronise avec votre data warehouse.
- 2ème génération : logiciel conçu pour aider le data steward à maintenir la documentation des données (métadonnées).
- 3ème génération : logiciel conçu pour fournir automatiquement une valeur commerciale aux utilisateurs finaux quelques heures après le déploiement. Il guide ensuite les utilisateurs pour documenter de manière collaborative et sans efforts.
Après avoir décrit les caractéristiques de chaque catégorie, nous vous proposons une comparaison des acteurs actuels sur le marché.
Quel catalogue de données choisir?
Catalogue de données 0.0 : aucun outil dédié
Les entreprises qui traitent de très petites quantités de données souvent n'utilisent pas d'outils spécifiques de cataloging des données. Si c’est votre cas, vous pouvez utiliser n'importe quel outil pour décrire les colonnes et les tables de votre infrastructure de données. Excel et Word peuvent être utilisés pour écrire les définitions de vos actifs et colonnes de données. La bonne nouvelle est que cela ne prend qu'une minute pour commencer. La mauvaise nouvelle est que cela prend également une minute pour être obsolète. Il est difficile à maintenir et n'est pas scalable.
Catalogue de données 1.0 : inventaire synchronisé des métadonnées
Les premiers catalogues de données ont été créés dans les années 1990 et au début des années 2000. Ce sont des logiciels de base, similaires à Excel, qui se synchronisent avec votre data warehouse. Le concept est très simple : avec cet outil, vous n'avez plus besoin d'écrire manuellement dans un document Excel les noms des différentes tables et colonnes. Ces outils synchronisaient automatiquement le contenu de data warehouse, vous permettant ainsi d'éviter la tâche fastidieuse et chronophage de mettre à jour ce qui est créé ou supprimé dans votre infrastructure de données.
Les outils de cataloging de données de cette catégorie proposent des fonctionnalités de base de documentation : documentation en texte clair, étiquetage manuel, propriété, curation des métadonnées et respect des pratiques de gouvernance. La recherche des actifs de données, le cas échéant, n'est pas vraiment puissante. Les catalogues de données 1.0 demandent des efforts importants en termes de configuration et de maintenance, sans parler des coûts élevés.
Catalogue de données 2.0 : catalogues centrés sur les data stewards
Au fur et à mesure de l’augmentation exponentielle des actifs de données et l’usage croissant des catalogues de données, les entreprises ont réalisé que toutes ces données devaient être gérées en termes de signification, de qualité et de droits d'administration. C'est ainsi qu'est né le rôle de data steward.
Les catalogues de données 2.0 ont été conçus pour ce nouveau rôle. Ils aident les Head of Data à maintenir la documentation des données, les traitements, la lignée, la cartographie des informations personnelles, la propriété, etc.
Dans ce contexte, les catalogues de données de deuxième génération offrent des fonctionnalités plus avancées :
Recherche et découverte
Les catalogues de données 2.0 permettent aux business analysts et aux data analysts de trouver et de comprendre les actifs de données dont ils ont besoin. Ils vous permettent de contextualiser les informations et de créer une page similaire à Wikipédia pour chaque actif de données de l'entreprise.
Processus intégré à l'outil de catalogue
Une bonne stratégie de documentation repose sur trois éléments : les outils, les personnes et les processus. Les personnes doivent connaître le processus de documentation et s'assurer qu'il est exploitable. Par exemple, avant de publier une table dans la base de données de production, il faut : un propriétaire identifié, une documentation complète de toutes les colonnes, plusieurs tests de qualité des données.
Fonctionnalités avancées de gestion des droits
Cela vous permet de restreindre l'accès aux actifs de données. Cela fonctionne en accordant aux professionnels des données des rôles spécifiques. En pratique, un utilisateur ne pourra accéder à un actif de données que s'il en a l'autorisation.
Fonctionnalités de gestion de projet
Les équipes de gouvernance des données doivent avoir une vue d'ensemble de l'avancement de la documentation des données. Vous voulez qu'elles organisent efficacement la charge de travail.
De nouvelles fonctionnalités supplémentaires de données apparaissent : lignée des données, qualité des données, éditeur SQL
Il existe deux niveaux de documentation des données : le niveau 1 de documentation concerne l'écriture des définitions de colonnes et de tables. Le niveau 2 consiste à ajouter un contexte métier autour des données : quelles sont les tables utilisées pour créer l'actif de données ? quel est le code sous-jacent ? à quelle fréquence est-il actualisé ? etc. Les catalogues de données 2.0 ont rendu le niveau 2 accessible, mais principalement de manière manuelle. Vous devez encore déclarer les dépendances amont et aval pour la lignée, choisir la fréquence de rafraîchissement dans un menu déroulant, etc.
Ces catalogues reposent toujours sur des processus : sans les processus, le catalogue de données n'apporte aucune valeur commerciale. Autrement dit, ils dépendent d'un Head of Data chargé de guider la documentation et l'étiquetage des bases de données.
Catalogue de données 3.0 : catalogues décentralisés et intelligents
La troisième génération des catalogues de données marque un changement important dans la gestion des métadonnées. Les catalogues de données modernes sont conçus pour offrir automatiquement de la valeur commerciale aux utilisateurs dès leur déploiement, en les guidant de manière collaborative et sans effort pour la documentation.
Les utilisateurs ne recherchent plus une documentation manuelle, mais attendent une valeur ajoutée dès le premier jour. Le catalogue de données 3.0 collecte automatiquement jusqu'à 80% du contexte métier (lignée, popularité, versioning, qualité, etc.) et ajoute une couche collaborative pour encourager la documentation par les utilisateurs. Le reste est un bonus.
Grâce à une utilisation quotidienne de l'outil par de nombreux utilisateurs, la documentation se développe organiquement grâce aux commentaires, échanges, interactions et retours des utilisateurs. Vous n'avez plus besoin d'un programme coûteux de documentation des données. Branchez l'outil et les utilisateurs créeront de la valeur tout en en tirant parti.
Le catalogue 3.0 repose sur trois principes :
1- Création de valeur dès le premier jour grâce à la collecte automatisée du contexte
Après avoir connecté le catalogue de données 3.0 à votre data warehouse, vous pouvez obtenir automatiquement les informations nécessaires pour commencer une analyse. Vous accédez au contexte métier de la création de l'actif de données : sa provenance, son code, son processus de création, ses créateurs et utilisateurs fréquents, sa date de dernière mise à jour, les jointures populaires, les tests effectués, le niveau de qualité, les duplications, les accès autorisés, etc.
2- Solution avec intelligence intégrée pour remplacer ou améliorer le responsable des données
Le catalogue de données 3.0 se distingue par son intelligence intégrée qui remplace le responsable des données. Cet outil autonome guide, priorise et optimise la gestion des métadonnées. Par exemple, il détecte la création d'une base de données et envoie une notification à son propriétaire pour lui rappeler de la décrire et de l'étiqueter. Grâce à la popularité et aux requêtes des utilisateurs, il identifie les actifs de données les plus utilisés, incitant les utilisateurs à documenter en priorité les bases de données les plus pertinentes.
3- Collaboration au cœur de la gestion des métadonnées
Le catalogue de données collaboratif permet aux utilisateurs de partager leurs connaissances sur un actif de données. Les employés peuvent signaler des définitions à revoir, débattre des définitions dans une section de discussion et construire un centre de connaissances lié au catalogue de données. L'historique des requêtes permet aux employés d'accéder aux manipulations et requêtes précédemment réalisées sur un actif de données, favorisant ainsi une analyse collaborative et approfondie.
Le catalogue de données d'entreprise moderne marque l'entrée dans une nouvelle ère, où la gestion des données est automatisée et collaborative, garantissant d'énormes gains de productivité.
Un catalogue de données Cloud se connecte au à la data warehouse cloud et aux sources de business intelligence. Il indexe toutes les métadonnées provenant de différentes sources dans un moteur de recherche, permettant aux utilisateurs de consulter, écrire et lire la documentation associée aux sources de données. Cela facilite la compréhension des actifs techniques pour les non-techniciens grâce à l'historique des requêtes, ainsi que la visualisation de la dépendance technique des actifs de données via les rapports de lignée et de service.
Le catalogue de données donne accès à une base de connaissances où sont définis les indicateurs clés de performance (KPI) et les métriques d'analyse. Il offre également un support aux utilisateurs de données dans toute l'entreprise pour leur infrastructure de données cloud. Il permet de rendre compte des décisions basées sur les données et des informations obtenues aux responsables des données. De plus, il permet de savoir quels produits de données sont utilisés pour quelles utilisations, améliorant ainsi la découverte des données dans l'entreprise.
Écosystème du catalogue de données
Ci-dessous, vous trouverez un écosystème du catalogue de données qui vous aidera, nous espérons, à choisir un outil de gestion des métadonnées adapté à vos besoins.
Cliquez ici pour accéder au paysage complet du catalogue de données.
Un catalogue de données Cloud se connecte au data warehouse en cloud ainsi qu'aux sources d'intelligence d'affaires en cloud. Il indexe l'ensemble des métadonnées provenant de différentes sources dans un moteur de recherche. Cela permet aux utilisateurs de consulter, rédiger et lire la documentation depuis la source de données pour découvrir ce qui existe dans le data warehouse en cloud et les outils d'intelligence d'affaires. Les capacités techniques d'un catalogue de données sont les suivantes :
- Comprendre comment utiliser les actifs techniques pour les non-techniciens grâce à l'historique des requêtes.
- Visualiser la dépendance technique d'un actif de données grâce aux rapports de traçabilité et de service.
- Accéder à la base de connaissances où les KPI (indicateurs clés de performance) et les métriques analytiques sont définis.
- Fournir un support aux utilisateurs de données dans toute l'entreprise sur l'infrastructure de données en cloud.
- Rendre compte au heads of data et aux data mangers sur la prise de décisions basée sur les données et les informations obtenues.
- Rapporter et consulter quels produits de données sont utilisés, et pour quels cas d'usage.
- Améliorer la découverte de données en cloud au sein de l'organisation d'entreprise pour découvrir quels utilisateurs d'analyses techniques et de rapports peuvent trouver.
À la recherche d’un catalogue de données moderne ?
Nous abordons tous les processus liés à l'utilisation des actifs de données, de la data stack moderne à la composition des équipes data, en passant par la gouvernance des données. Notre blog couvre les aspects techniques et pratiques de la création de valeur tangible à partir des données.
Chez Castor, nous avons conçu un outil de documentation de données pour la génération Notion, Figma, Slack, qui se veut simple, agréable et collaboratif.
Envie de le découvrir ? Contactez-nous pour une démonstration.
À propos de CastorDoc
Nous abordons tous les aspects liés à l'exploitation des données: des data stacks modernes à la composition des équipes data, en passant par la gouvernance des données. Notre blog couvre à la fois les aspects techniques et les aspects moins techniques de la création de valeur tangible à partir des données.
Chez CastorDoc, nous développons un outil de documentation des données conçu spécifiquement pour les plateformes comme Notion, Figma et Slack. Notre logiciel de catalogue est collaboratif, intuitif et facile à utiliser.
Vous souhaitez le tester ? Contactez-nous et nous serons ravis de vous présenter une démo.
S'inscrire à la newsletter
You might also like
Contactez-nous pour en savoir plus
« J'aime l'interface facile à utiliser et la rapidité avec laquelle vous trouvez les actifs pertinents que vous recherchez dans votre base de données. J'apprécie également beaucoup le score attribué à chaque tableau, qui vous permet de hiérarchiser les résultats de vos requêtes en fonction de la fréquence d'utilisation de certaines données. » - Michal P., Head of Data.