Terminologie de Microsoft Fabric

by ·

Découvrez les définitions des termes utilisés dans Microsoft Fabric, notamment les termes propres à Synapse Entrepôt de Données, Synapse Engineering Données, Synapse Science des données, Synapse Analytique en Temps Réel, Data Factory et Power BI.

Conditions générales

Capacité : ensemble dédié de ressources qui sont disponibles à un moment donné pour être utilisées. La capacité définit la possibilité d’une ressource à effectuer une activité ou à produire une sortie. Différents éléments consomment une capacité différente à un moment donné. Fabric offre une capacité via la référence SKU et les évaluations Fabric. Pour plus d’informations, consultez Qu’est-ce que capacité ?
Expérience : collection de fonctionnalités ciblées sur une fonctionnalité spécifique. Les expériences Fabric incluent Synapse Entrepôt de Données, Synapse Engineering Données, Synapse Science des données, Synapse Analytique en Temps Réel, Data Factory et Power BI.
Article : ensemble de fonctionnalités au sein d’une expérience. Les utilisateurs peuvent les créer, les modifier et les supprimer. Chaque type d’élément fournit des fonctionnalités différentes. Par exemple, l’expérience Engineering données comprend les éléments de définition de travail lakehouse, notebook et Spark.
Client : un client est une instance unique de Fabric pour une organisation et est alignée avec Microsoft Entra ID.
Espace de travail : collection d’éléments qui regroupe différentes fonctionnalités dans un seul environnement conçu pour la collaboration. Il agit comme un conteneur qui tire parti de la capacité disponible pour le travail exécuté, et fournit des contrôles pour les personnes qui peuvent accéder aux éléments qu’il contient. Par exemple, dans un espace de travail, les utilisateurs créent des rapports, des notebooks, des modèles sémantiques, etc. Pour plus d’informations, consultez l’article espaces de travail.

Engineering données Synapse

Lakehouse : collection de fichiers, de dossiers et de tables qui représentent une base de données sur un lac de données utilisé par le moteur Apache Spark et le moteur SQL pour le traitement du Big Data. Un Lakehouse inclut des fonctionnalités améliorées pour les transactions ACID lors de l’utilisation des tables au format Delta open source. L’élément Lakehouse est hébergé dans un dossier d’espace de travail unique dans Microsoft OneLake. Il contient des fichiers dans différents formats (structurés et non structurés) organisés dans des dossiers et sous-dossiers. Pour plus d’informations, consultez Qu’est-ce qu’un Lake house ?
Notebook : outil de programmation de Fabric interactif multilingue doté de puissantes fonctions. Cela comprend la création de code et de markdown, l’exécution et la surveillance d’un travail Spark, l’affichage et la visualisation des résultats et la collaboration avec l’équipe. Il aide les ingénieurs des données et les scientifiques des données à explorer et à traiter des données, et à créer des expériences de Machine Learning avec à la fois du code et une expérience à faible code. Il peut être facilement transformé en activité de pipeline pour l’orchestration.
Application Spark : programme écrit par un utilisateur à l’aide de l’un des langages d’API Spark (Scala, Python, Spark SQL ou Java) ou des langages ajoutés par Microsoft (.NET avec C# ou F#). Lorsqu’une application s’exécute, elle est divisée en un ou plusieurs travaux Spark qui s’exécutent en parallèle pour traiter les données plus rapidement. Pour plus d’informations, consultez Monitoring des applications Spark.
Travail Apache Spark : un travail Spark fait partie d’une application Spark exécutée en parallèle avec d’autres travaux de l’application. Un travail est composé de plusieurs tâches. Pour plus d’informations, consultez Monitoring des travaux Spark.
Définition du travail Apache Spark : ensemble de paramètres, définis par l’utilisateur, qui indiquent comment une application Spark doit être exécutée. Il vous permet d’envoyer des travaux de lot ou de streaming au cluster Spark. Pour plus d’informations, consultez Qu’est-ce qu’un travail Apache Spark?
V-order : optimisation de l’écriture au format de fichier parquet qui permet des lectures rapides et offre plus de rentabilité et de meilleures performances. Tous les moteurs Fabric écrivent des fichiers Parquet triés en V par défaut.

Data Factory

Connecteur : Data Factory propose un riche ensemble de connecteurs qui vous permettent de vous connecter à différents types de magasins de données. Une fois connecté, vous pouvez transformer les données. Pour plus d’informations, consultez connecteurs.
Pipeline de données : dans Data Factory, un pipeline de données est utilisé pour orchestrer le déplacement et la transformation des données. Ces pipelines sont différents des pipelines de déploiement dans Fabric. Pour plus d’informations, consultez Pipelines dans la vue d’ensemble de Data Factory.
Flux de données Gen2: les flux de données fournissent une interface à faible code pour l’ingestion de données à partir de centaines de sources de données, transformant vos données. Les flux de données dans Fabric sont appelés Flux de données Gen2. Le flux de données Gen1 existe dans Power BI. Le flux de données Gen2 offre des fonctionnalités supplémentaires par rapport aux flux de données dans Azure Data Factory ou Power BI. Vous ne pouvez pas effectuer la mise à niveau de Gen1 vers Gen2. Pour plus d’informations, consultez Flux de données dans la vue d’ensemble de Data Factory.

Science des données Synapse

Data Wrangler : outil basé sur un notebook qui offre aux utilisateurs une expérience immersive pour effectuer une analyse exploratoire des données. La fonctionnalité combine un affichage de données semblable à une grille avec des statistiques de synthèse dynamiques et un ensemble d’opérations courantes de nettoyage des données, le tout étant disponible avec quelques icônes sélectionnés. Chaque opération génère du code qui peut être enregistré dans le notebook en tant que script réutilisable.
Expérience : une expérience Machine Learning est l’unité principale d’organisation et de contrôle pour tous les cycles d’apprentissage automatique connexes. Pour plus d’informations, consultez Expériences Machine Learning dans Microsoft Fabric.
Modèle: un modèle Machine Learning est un fichier entraîné pour reconnaître certains types de modèles. Vous effectuez l’apprentissage d’un modèle sur un ensemble de données et vous lui fournissez un algorithme qu’il utilise pour raisonner et apprendre de ce jeu de données. Pour plus d’informations, consultez Modèle Machine Learning.
Exécution : correspond à une seule exécution de code de modèle. Dans MLflow, le suivi est basé sur les expériences et les exécutions.

Entrepôt de données Synapse

Point de terminaison d’analytique SQL : chaque Lakehouse a un point de terminaison d’analytique SQL qui permet à un utilisateur d’interroger des données de table delta avec TSQL sur TDS. Pour plus d’informations, consultez point de terminaison SQL Analytics.
Entrepôt de données Synapse : la fonctionnalité Entrepôt de données Synapse est un entrepôt de données traditionnel et prend en charge toutes les fonctionnalités transactionnelles de T-SQL attendues d’un entrepôt de données d’une entreprise. Pour plus d’informations, consultez Entrepôt de données Synapse.

Analytique en temps réel Synapse

Base de données KQL : représentation d’une base de données contenant des données dans un format pour exécuter une requête KQL sur celle-ci. Pour plus d’informations, consultez Interroger une base de données KQL.
Ensemble de requêtes KQL : élément utilisé pour exécuter des requêtes, afficher des résultats et manipuler les résultats des requêtes sur les données de votre base de données Data Explorer. L’ensemble de requêtes inclut les bases de données et les tables, les requêtes et les résultats. Le jeu de requêtes KQL vous permet non seulement d’enregistrer des requêtes pour pouvoir les utiliser ultérieurement, mais aussi de les exporter et de les partager avec d’autres personnes. Pour plus d’informations, consultez Interroger des données dans l’ensemble de requêtes KQL
Flux d’événements : le flux d’événements de Microsoft Fabric vous offre une place centralisée dans la plateforme Fabric pour capturer, transformer et acheminer des événements en temps réel vers des destinations avec une expérience sans code. Un flux d’événements se compose de différentes sources de données de streaming, de destinations d’ingestion et d’un processeur d’événements lorsque la transformation est nécessaire. Pour plus d’informations, consultez Flux d’événements Microsoft Fabric.

OneLake

Raccourcis : références incorporées dans OneLake qui pointent vers les emplacements de magasin d’autres fichiers. Ils fournissent un moyen de se connecter à des données existantes sans avoir à les copier directement. Pour plus d’informations, consultez Raccourcis OneLake.