5 choses à savoir absolument pour un data analyst

Et pourquoi ce n’est ni Python, ni SQL

5 choses à savoir absolument pour un data analyst

1. Si votre analyse ne présente aucun biais, regardez de nouveau

Définition du problème

Un biais est une tendance à favoriser ou rejeter une idée, souvent de manière inconsciente. Cela survient principalement lorsque nos découvertes collent parfaitement à nos attentes. En tant qu'êtres humains, si nos premiers résultats correspondent à ce que nous anticipons après avoir examiné brièvement les données, nous avons tendance à nous satisfaire de ces conclusions. Par contre, si nos résultats dévient de nos attentes, nous sommes enclins à creuser davantage jusqu'à trouver ce que nous cherchons.

Comment l'éviter?

Réfléchissez aux éléments qui pourraient fausser vos résultats d'analyse. Deux facteurs principaux peuvent introduire un biais :

  1. L'étendue de votre analyse :N'hésitez pas à modifier la période de temps examinée ou même les données utilisées, car cela pourrait changer vos résultats. Prenez en compte les défis liés à la saisonnalité et aux effets combinés. Soyez particulièrement vigilant aux effets de cohorte.
  2. La méthodologie de votre analyse :Ceci est étroitement lié aux fondements de la statistique. Une fois la période de temps et les données appropriées sélectionnées, réfléchissez soigneusement à la façon dont vous les combinez pour obtenir des résultats. Les valeurs aberrantes et les méthodes d'agrégation doivent être étudiées avec soin. Comparez toujours la moyenne à la médiane.

2. La plupart des premières ébauches/ brouillons peuvent être réalisées dans Excel.

Ce titre est un peu provocateur. Oui, Python est puissant et vous permet d'enregistrer et de répéter le traitement de vos données. Mais cela a un coût. Tout d'abord, cela prend du temps, surtout si vous n'êtes pas un expert en Python. Deuxièmement, la collaboration est plus difficile avec des utilisateurs non technophiles. Si vous avez besoin de collaborateurs qui ne maîtrisent pas le code pour travailler avec vous sur votre application de données, alors Python vous ralentira.

En tant que professionnel des données, vous voudrez réaliser des projets en Python, simplement pour monter en compétences. Mais choisissez-les avec soin. Si vous avez un emploi du temps très serré et qu'Excel fait l'affaire, optez pour Excel. Vous pouvez migrer plus tard vers Python, car il est toujours plus facile d'apprendre une chose à la fois. Il est difficile de créer une toute nouvelle application de données avec un langage avec lequel vous n'êtes pas à l'aise. Commencez d'abord l'analyse avec un outil que vous maîtrisez bien, puis migrez-la vers le nouveau langage.

3. Procurez-vous un outil qui conserve l'historique de vos requêtes

Vous êtes-vous déjà retrouvé face à une demande de données similaire à celle que vous aviez il y a 3 mois ? Cela arrive bien trop souvent dans l'année, en souhaitant avoir un historique complet de toutes les requêtes que vous avez exécutées au cours des derniers 365 jours...

Découvrez CastorDoc pour y parvenir.

4. Ne réparez pas les données, réparez le processus qui les crée

Commençons par un exemple concret de la vie réelle.

L'une des pipelines de données d'une de mes anciennes entreprises cessait de fonctionner à cause d'un problème de non-uniquité : un champ de table était censé être une clé primaire, mais il y avait des doublons. Ce champ était l'identifiant du client et normalement, un client devait être présent dans un et un seul pays.

Donc, chaque fois que nous avions ce problème, nous devions trouver le client lié à plusieurs pays et le corriger. Nous rappelions également à l'équipe commerciale la règle du "pays unique".

Devrions-nous mettre en place un système d'alerte dédié à ce problème spécifique ? Devrions-nous ajouter une couche de transformation par-dessus ? Devrions-nous supprimer cette vérification "unique" ? Non, nous devons (et ne l'avons pas encore fait) simplement faire respecter cette règle lors de la création des données à la source, c'est-à-dire dans Salesforce par les commerciaux.

Autant que possible, identifiez la cause première de vos problèmes de données et faites comprendre aux gens que des données de qualité nécessitent des processus optimisés pour cela. Les processus sont certes conçus en premier lieu pour améliorer l'entreprise, mais dans l'intérêt d'avoir de bonnes données, ils doivent prendre en compte les dépendances des données.

5. Partagez vos analyses aussi largement que possible

Trop de professionnels des données attendent que leur application data soit parfaite avant de la partager. Partagez-la dès maintenant (avec une mention "En cours de travail" au début si vous le souhaitez). Ne passez pas plus de quelques jours sans avoir une revue par vos pairs de votre travail. Cela vous donnera une perspective.

Conclusion

Oui, les compétences techniques (Python, SQL, R...) sont essentielles pour commencer votre analyse, mais personnellement, je m'intéresse davantage aux compétences relationnelles (bonne communication, capacité à voir le panorama complet, direct et pragmatique).

Je suis ouvert à un débat constructif dans les commentaires.

À propos de nous

Nous écrivons sur tous les processus impliqués dans l'exploitation des actifs de données : de la data stack moderne à la composition des équipes data, en passant par la gouvernance des données. Notre blog couvre les aspects techniques et moins techniques de la création de valeur tangible à partir des données.

Chez CastorDoc, nous développons un outil de documentation des données pour la génération Notion, Figma, Slack.

Ou, pour les adeptes de Fivetran, Looker, Snowflake et DBT, une solution axée sur les données. Nous avons conçu notre logiciel de catalogue pour qu'il soit facile à utiliser, plaisant et collaboratif.

Envie de le découvrir ? Contactez-nous et nous vous ferons une démonstration.

S'inscrire à la newsletter

New Release
Share

Get in Touch to Learn More

See Why Users Love CastorDoc
Fantastic tool for data discovery and documentation

“[I like] The easy to use interface and the speed of finding the relevant assets that you're looking for in your database. I also really enjoy the score given to each table, [which] lets you prioritize the results of your queries by how often certain data is used.” - Michal P., Head of Data