La Data Stack Ultime
Notre combo préféré : Fivetran, Snowflake, dbt, Looker et CastorDoc
Ces dernières années, nous avons constaté une évolution radicale des technologies et des outils permettant de construire une data stack. Les bonnes pratiques évoluent de plus en plus vite, mais heureusement, il est désormais plus facile que jamais de construire une stack d’exception sans investissement massif. Nous avons analysé ce que nous pensons être l’approche la plus efficace pour construire une data stack en 2022.
Méthodologie
Nous avons mené plus de 150 entretiens dans 100 entreprises de différentes tailles, industries et niveaux de maturité.
Lors de chaque entretien, nous avons posé plusieurs types de questions.
Pour mieux connaître l’entreprise et tenter de dégager des tendances, nous avons posé des questions de qualification :
- Nous souhaitions comprendre comment était organisée leur infrastructure de données. Quels types de données recueillaient-ils, dans quel but ? Quels était approximativement les volumes de données traités ?
- Quelle était la taille de leur équipe ? À quelle vitesse s’est développée l’entreprise ? Quel était le taux de croissance de leurs données ?
Pour obtenir une vision plus précise de leur niveau de maturité en termes de processus, nous avons examiné en détail leur routine quotidienne et leurs processus d'activité.
- Comment accèdent-ils à leurs données et comment les partagent-ils ? Quels logiciels utilisent-t-ils ?
- Comment font-ils confiance aux données ? Rédigent-ils des tests ?
- Comment classent-ils les données par ordre de priorité? Y a-t-il des efforts dans la gestion des coûts/ressources ?
- Ensuite, nous nous sommes demandé s'ils rencontraient des difficultés au niveau de la gestion des données.
- Quels sont les types de problèmes auxquels ils ont été confrontés : stockage, qualité, documentation?
- Quelle était l’importance de ces problèmes ? Quel était l’impact financier de ces problèmes ?
Enfin, nous leur avons demandé s’ils avaient des idées sur ce que la solution idéale devrait être.
- Nous avons commencé par des questions basiques sur leurs outils
- Ensuite nous avons abordés des solutions potentielles qui n’existent pas encore sur le marché.
La data warehouse dans le cloud
Les systèmes de data warehousing, parmi tous les éléments d’une data stack moderne, ont connu d'importantes améliorations ces dernières années. Les data warehouses cloud, hautement évolutives et gérées, permettent de transformer des téraoctets de données en quelques lignes de SQL sans infrastructure. Avec une tarification à la demande, cette technologie est abordable pour tous avec seulement quelques minutes de configuration. Cela a un impact sur l'ensemble de la data stack :
La plupart des entreprises n’ont pas à se soucier des coûts de stockage des données.
- La plupart des opérations de préparation et transformation de données peuvent être effectuées dans la data warehouse, à l’aide de SQL.
- Les outils de Business Intelligence (BI) et de reporting peuvent être utilisés directement du de la data warehouse, en temps réel.
Google BigQuery, Amazon Redshift et Snowflake sont actuellement les meilleures solutions, offrant des coûts de stockage réduits, des vitesses de traitement élevées et une tarification à la demande. Des outils comme Intermix peuvent être utilisés pour optimiser les performances de votre warehouse Redshift.
La montée en puissance de ETL
Avant la data warehouse dans le cloud, les pipelines de données suivaient le processus ETL : extraction des données de systèmes sous-jacents, transformation en format utilisable, chargement dans votre base de données analytique. La data warehouse dans le cloud a permis aux équipes de reporter l’étape de transformation à plus tard dans le processus, de sorte que les équipes suivent maintenant un processus ELT.
En réalité, j’aime décomposer la pipeline de données en quatre étapes : collecte, chargement , transformation et analyse.
Le fait de déplacer l’étape de transformation dans la warehouse présente des avantages considérables :
- La logique métier peut être retirée de l’étape d’extraction et de chargement. Cela permet aux équipes d'utiliser des fournisseurs tiers pour collecter et charger leurs données avec un investissement minimal en termes de ressources.
- La logique métier peut être définie en SQL. Plutôt que d'avoir des équipes d'ingénieurs qui définissent des transformations en Java, Python, Scala, etc., l'analyste travaillant en étroite collaboration avec les équipes métiers peut posséder et gérer cette logique.
Un nouvel outil open-source appelé dbt permet à toute personne à l'aise avec SQL de gérer l'ingénierie de l'analyse de données (i.e ELT).
Collecte des données
Il existe, au minimum, deux types de données à suivre :
- Les données d’événements : Que font vos utilisateurs lorsqu'ils interagissent avec votre produit ?
- L'historique des données transactionnelles : Pour permettre des analyses avancées, vous devez non seulement comprendre l'état actuel du système, mais aussi comment il a évolué au fil du temps. Idéalement, vous devriez créer un nouvel événement pour chaque modification (insertion, modification, suppression) de votre base de données transactionnelle. Si cette procédure n'est pas envisageable, il est essentiel, à minima, de réaliser des captures instantanées de la base de données à intervalles réguliers.
Segment et Snowplow sont des choix populaires qui permettent aux équipes d'ingénieurs de suivre facilement les événement importants des utilisateurs.
Les entreprises disposent aujourd'hui de beaucoup plus de sources de données (Google Analytics, Shopify, Adwords). Plus il est possible d’intégrer des sources dans la data stack, mieux c'est.
Chargement des données
En plus des données d'événements et des données transactionnelles, votre entreprise peut avoir accès à de nombreuses autres sources de données : Google Analytics, Shopify, données sur les dépenses publicitaires, données Intercom, etc. Le chargement de chacune de ces sources dans votre data warehouse permettra à votre équipe d'effectuer des analyses approfondies.
Stitch et Fivetran sont deux services populaires qui facilitent le chargement de centaines de types de données. Il peut suffire d’une heure pour configurer des tâches d'ingestion programmées, et vous devriez éviter d’avoir à d'écrire du code.
Transformation des données
Pour que les données soient utilisables, elles doivent d'abord être transformées en datasets propres, descriptibles, fiables et facilement consultables.
La couche de transformation est l’endroit où la singularité et l’individualité de votre entreprise sont introduites. La transformation des données brutes en datasets qui ont du sens pour votre entreprise exige des compétences, et vos règles de transformation évolueront au fil du temps. De plus en plus de données sont générées, il est donc nécessaire de continuellement les mettre à jour et de les entretenir. Pour ces raisons et bien d'autres, les meilleures équipes data intègrent désormais les meilleures pratiques d'ingénierie logicielle dans leurs transformations : tests, rapports d'erreurs, contrôle de version, revue de code et alertes.
Jusqu'à récemment, Airflow, dbt et Luigi étaient des choix populaires pour gérer les transformations. Cependant, ces services nécessitent des équipes qui maintiennent l'infrastructure de support, ce qui s'avère être long, difficile et frustrant.
Analyse des données
Les données sont au cœur de la prise de décision dans les entreprises modernes. Pour permettre à l'entreprise d'être véritablement axée sur les données, les solutions d'analyse des données ne peuvent pas s'appuyer sur des analystes générant manuellement des rapports, cette solution n'est pas scalable. La première étape consiste à transformer les données brutes en ensembles de données significatifs, faciles à utiliser et à comprendre. Les meilleures entreprises appuient cette démarche par des solutions de BI qui permettent à chacun d'accéder lui même à ses demandes de données. Les employés devraient savoir où trouver les données dont ils ont besoin, pouvoir y accéder rapidement et faire confiance aux données et aux informations qu'ils trouvent.
Looker est un exemple d'outil de BI conçu en tenant compte de cette approche contemporaine des données, et nous constatons qu'il est utilisé par une grande partie des entreprises ayant une approche avancée des données.
Documentation des données et conformité au GDPR
Les startups connaissent une croissance explosive tant en termes de volume de données que du nombre de ressources internes de données : tables de données, dashboards, rapports, définitions de métriques, etc. De plus, leur croissance les amène à recruter de nouvelles personnes chaque semaine ou chaque mois. D'une part, la croissance des ressources de données est bénéfique et reflète leur investissement important dans les outils pour promouvoir la prise de décision basée sur les données. Cependant, elle crée également un nouveau défi : naviguer efficacement dans une multitude de ressources de données de qualité, de complexité, de pertinence et de fiabilité variables. Pour mieux gérer les données, les entreprises modernes ont créé un outil de découverte et de cataloging des données entièrement automatisé.
Lyft Amundsen est une version open-source réputée, mais sa configuration peut s'avérer assez technique. CastorDoc est le nouveau catalogue de données plug and play, automatisé et collaboratif, que vous pouvez mettre en place en 5 minutes.
Résumé
- La meilleure combinaison, et la plus populaire, que nous avons vue dans les scale-ups modernes est la suivante :
- Snowflake comme data warehouse
- dbt comme outil ETL/ELT
- Looker ou Tableau comme outil de visualisation des données
- CastorDoc pour gérer la découverte des données et les questions liées au GDPR
À propos de nous
Nous écrivons sur tous les processus impliqués dans l'exploitation des actifs de données : de ladata stack moderne à la composition des équipes data, en passant par la gouvernance des données. Notre blog couvre les aspects techniques et moins techniques de la création de valeur tangible à partir des données.
Chez CastorDoc, nous développons un outil de documentation des données pour la génération Notion, Figma, Slack.
Ou, pour les adeptes de Fivetran, Looker, Snowflake et DBT, une solution axée sur les données. Nous avons conçu notre logiciel de catalogue pour qu'il soit facile à utiliser, plaisant et collaboratif.
Envie de le découvrir ? Contactez-nous et nous vous ferons une démonstration.
S'inscrire à la newsletter
You might also like
Get in Touch to Learn More
“[I like] The easy to use interface and the speed of finding the relevant assets that you're looking for in your database. I also really enjoy the score given to each table, [which] lets you prioritize the results of your queries by how often certain data is used.” - Michal P., Head of Data