Guide complet de l'examen PL-300 - Power BI Data Analyst
Vue d'ensemble de la certification
L'examen PL-300 évalue vos compétences en tant qu'analyste de données Power BI. Cette certification reconnaît votre capacité à concevoir et déployer des solutions d'analyse avec Power BI, incluant la préparation des données, la modélisation, la visualisation et la sécurisation des ressources.
1. Préparer les données (25-30%)
1.1 Obtenir ou se connecter aux données
Identifier et se connecter à des sources de données ou à un modèle sémantique partagé
Power BI permet de se connecter à une multitude de sources de données : fichiers Excel, bases SQL Server, services cloud, API web, etc. Un modèle sémantique partagé est un dataset publié dans le service Power BI que plusieurs rapports peuvent réutiliser.
Points clés :
Utiliser "Obtenir des données" pour accéder aux connecteurs Comprendre la différence entre connexion en direct et import Savoir naviguer dans les sources de données disponibles Changer les paramètres de source de données
Les paramètres incluent les informations d'identification (authentification), les niveaux de confidentialité qui déterminent comment Power BI peut combiner les données de sources différentes, et les chaînes de connexion.
Niveaux de confidentialité :
Public : données accessibles à tous Organisationnel : données visibles dans l'organisation Privé : données confidentielles isolées Choisir entre DirectQuery et Import
Import : les données sont stockées dans le modèle Power BI, permettant des performances rapides mais nécessitant des actualisations périodiques.
DirectQuery : les requêtes sont envoyées directement à la source en temps réel, idéal pour les données qui changent constamment ou les très grands volumes.
Cas d'usage :
Import : données historiques, petits à moyens volumes DirectQuery : données temps réel, très grands volumes, restrictions de sécurité Créer et modifier des paramètres
Les paramètres permettent de créer des connexions flexibles et réutilisables. Ils peuvent contrôler des chemins de fichiers, des filtres, ou des valeurs dans les requêtes M.
Exemple d'utilisation :
Basculer entre environnements (dev/prod) Filtrer dynamiquement les données Créer des rapports paramétrables 1.2 Profiler et nettoyer les données
Évaluer les données
L'évaluation inclut l'analyse des statistiques (min, max, moyenne, écart-type) et des propriétés des colonnes (type de données, nombre de valeurs distinctes, valeurs nulles).
Outils disponibles :
Qualité des colonnes (% de valeurs valides/erreurs/vides) Distribution des colonnes (histogramme des valeurs) Profil des colonnes (statistiques détaillées) Résoudre les incohérences et problèmes de qualité
Les problèmes courants incluent :
Valeurs null : décider de les remplacer, supprimer ou conserver Valeurs inattendues : détecter les anomalies avec les statistiques Incohérences : variations d'orthographe, formats différents Doublons : identifier et supprimer les lignes en double Techniques de nettoyage :
Corriger les types de données Normaliser le texte (majuscules/minuscules) Résoudre les erreurs d'importation
Les erreurs peuvent survenir lors de changements de schéma, problèmes de connexion, ou types de données incompatibles.
Solutions :
Vérifier les étapes appliquées dans Power Query Actualiser les métadonnées Corriger les transformations qui causent des erreurs 1.3 Transformer et charger les données
Sélectionner les types de données appropriés
Les types de données influencent la taille du modèle et les performances. Choisir le bon type évite des conversions coûteuses.
Types principaux :
Texte, Nombre entier, Nombre décimal Créer et transformer des colonnes
Power Query offre de nombreuses transformations :
Ajouter une colonne personnalisée : formules M Extraire : parties de texte (premiers caractères, derniers, plage) Fractionner : diviser une colonne par délimiteur ou position Format : majuscules, minuscules, première lettre en majuscule Dupliquer/Supprimer colonnes Grouper et agréger des lignes
L'agrégation résume les données en groupes avec des opérations comme somme, moyenne, compte, min, max.
Exemple : regrouper les ventes par client et calculer le total des achats par client.
Pivoter, dépivoter et transposer
Pivoter : transformer des lignes en colonnes Dépivoter : transformer des colonnes en lignes (normalisation) Transposer : inverser lignes et colonnes Ces opérations permettent de restructurer les données pour l'analyse.
Convertir des données semi-structurées en table
Les données JSON, XML ou imbriquées doivent être aplaties pour devenir tabulaires. Power Query peut développer les enregistrements et listes imbriqués.
Créer des tables de faits et dimensions
Table de faits : contient les mesures quantitatives (ventes, quantités) avec des clés étrangères vers les dimensions.
Table de dimension : contient les attributs descriptifs (produits, clients, dates) avec une clé primaire.
Cette structure en étoile ou flocon optimise les requêtes et l'analyse.
Requêtes de référence vs dupliquées
Référence : pointe vers une autre requête, économise de la mémoire mais dépend de la source Dupliquée : copie indépendante, utile pour créer des variantes sans affecter l'original