1. Introduction aux guides de décision Fabric
Microsoft Fabric propose un large éventail de services et d'outils pour couvrir l'ensemble du cycle de vie des données : ingestion, transformation, stockage, analyse et visualisation. Face a cette richesse fonctionnelle, il est essentiel de savoir choisir le bon outil pour le bon usage.
Ce document synthétise les quatre guides de décision officiels de Microsoft et les présente sous une forme pédagogique, structurée autour de quatre questions fondamentales :
Comment intégrer les données ? Quelle stratégie globale d'intégration choisir (déplacement, orchestration, transformation) Comment déplacer les données ? Quel outil de déplacement privilégier (mise en miroir, travail de copie, activité de copie, flux d'événements) Où stocker les données ? Quel magasin de données utiliser (lakehouse, warehouse, eventhouse, base de données SQL, Cosmos DB) Lakehouse ou warehouse ? Comment trancher entre ces deux options d'entreposage
À retenir
Ces guides ne sont pas exclusifs : dans une architecture Fabric réelle, vous combinerez généralement plusieurs de ces outils. L'objectif est de comprendre le cas d'usage principal de chacun pour faire un choix éclaire.
2. Choisir une stratégie d'intégration des données
Le premier niveau de décision consiste à identifier votre objectif principal. Microsoft Fabric organise l'intégration des données autour de trois piliers : le déplacement, l'orchestration et la transformation. Chaque pilier dispose de ses propres outils.
2.1. Les quatre questions clés
Pour choisir la bonne stratégie, posez-vous ces questions :
Les quatre questions clés
2.2. Les stratégies de déplacement des données
Le déplacement des données consiste à amener les données depuis vos sources vers Fabric. Quatre outils sont disponibles :
Source : Microsoft Learn - Guide d'intégration
2.3. Les stratégies d'orchestration
L'orchestration permet de coordonner et planifier l'exécution de plusieurs taches de données. Deux options s'offrent à vous :
Low-code, visuelle (glisser-deposer)
Code-first (Python, DAGs)
2.4. Les stratégies de transformation
La transformation consiste à nettoyer, enrichir et préparer les données pour l'analyse. Trois outils sont disponibles selon votre profil :
Source : Microsoft Learn - Guide d'intégration
3. Choisir une stratégie de déplacement des données
Ce chapitre approfondit le choix du bon outil de déplacement en comparant en détail les quatre mécanismes disponibles dans Fabric.
3.1. Arbre de décision simplifié
Pour choisir rapidement, suivez ce raisonnement :
3.2. Comparaison détaillée des capacités
Le tableau ci-dessous détaillé les capacités fonctionnelles de chaque outil de déplacement :
3.3. Concepts clés par outil
Mise en miroir (Mirroring) Solution simple et économique pour répliquer des données dans Fabric. Offre une synchronisation en quasi temps réel sans configuration de pipeline. Données écrites en lecture seule dans OneLake au format Delta. Idéale pour rendre les bases de données accessibles à l'analytique sans impacter les systèmes sources. Travail de copie (Copy Job) Comble le vide entre la mise en miroir et l'activité de copie. Offre une interface assistée sans code. Propose la copie incrémentielle native basée sur des filigranes. Détecte automatiquement les tables compatibles CDC (Change Data Capture) Prend en charge la sélection multi-tables, les comportements upsert et la planification personnalisée sans construction de pipeline. Activité de copie (Copy Activity) Intégrée aux pipelines, offre le plus haut niveau de personnalisation. Permet des requêtes SQL personnalisées à la source. Orchestration avec d'autres activités (procédures stockées, appels API, notifications). Gestion avancée des erreurs. Solution privilégiée pour les architectures médaillon complexes et les volumes à l'échelle du petaoctet. Flux d'événements (Eventstreams) Conçus pour l'ingestion et le traitement de données en streaming temps réel. Permettent d'appliquer des transformations légères (analyse de flux SQL). Routent les événements vers plusieurs destinations (eventhouse, lakehouse, activateur). Créent des tableaux de bord mis à jour en quelques secondes. Adaptés aux scénarios IoT, monitoring et alerting. Bonne pratique
Dans de nombreux projets, vous combinerez plusieurs de ces outils. Par exemple : la mise en miroir pour les bases opérationnelles, le travail de copie pour les sources externes, et les flux d'événements pour le monitoring temps réel.
4. Choisir un magasin de données
Une fois les données ingérées dans Fabric, il faut choisir ou les stocker. Fabric propose cinq types de magasins de données, chacun optimise pour des cas d'usage spécifiques. Tous stockent leurs données dans OneLake au format ouvert.
4.1. Les cinq magasins de données Fabric
Big data, ML, données non/semi-structurées, ingénierie des données
Ingénieur données, data scientist
PySpark, Delta Lake, notebooks
Spark (Scala, PySpark, SQL, R)
Source : Microsoft Learn - Guide magasin de données
4.2. Arbre de décision simplifié
À retenir
Tous les magasins de données Fabric stockent leurs données dans OneLake au format ouvert (Delta). = les données d'un lakehouse peuvent être interrogées depuis un entrepôt via des requêtes inter-bases de données, et vice versa. Le choix du magasin n'est donc pas un choix d'isolation mais de moteur de traitement optimal. 5. Lakehouse ou entrepôt de données ?
C'est probablement la question la plus fréquente dans un projet Fabric. Ces deux magasins de données couvrent des cas d'usage proches mais avec des approches différentes. Cette section vous aide à trancher.
5.1. Les trois critères de décision
Microsoft propose trois critères simples pour choisir :
Comment souhaitez-vous développer ? Si vous travaillez principalement avec Spark (PySpark, Scala, R) : choisissez le lakehouse.
Si vous travaillez principalement avec T-SQL : choisissez l'entrepôt.
Avez-vous besoin de transactions multi-tables ? Non : le lakehouse convient.
Oui : choisissez l'entrepôt (support transactionnel complet T-SQL).
Quel type de données analysez-vous ? Données structurées et non structurées (fichiers, images, JSON) : choisissez le lakehouse.
Données structurées uniquement : choisissez l'entrepôt.
Vous ne savez pas encore : commencez par le lakehouse (plus flexible).
5.2. Comparaison fonctionnelle détaillée
Fonctionnalite principale
Entreposage complet avec transactions T-SQL (lecture + écriture)
Point de terminaison en lecture seule pour interroger les tables Delta
Source : Microsoft Learn - Lakehouse vs Warehouse
5.3. Points forts de l'entrepôt de données
Support transactionnel complet multi-tables (ACID) en T-SQL Chargement de données à grande échelle avec COPY INTO Requêtes inter-bases de données via des noms en trois parties Compatible avec les outils SQL Server classiques (SSMS, Azure Data Studio) Création de vues, procédures stockées, fonctions et schémas