OneLake, OneDrive pour les données

by ·

OneLake est un lac de données unique, unifié et logique pour l’ensemble de votre organisation. Comme OneDrive, OneLake est fourni automatiquement avec chaque locataire Microsoft Fabric et est conçu pour être le seul emplacement pour toutes vos données d’analyse. OneLake apporte aux clients :

Un lac de données pour l’organisation entière
Une copie de données à utiliser avec plusieurs moteurs analytiques

Un lac de données pour l’organisation entière

Avant OneLake, il était plus facile pour les clients de créer plusieurs lacs pour différents groupes d’entreprises plutôt que de collaborer sur un seul lac, même avec la surcharge liée à la gestion de plusieurs ressources. OneLake se concentre sur l’élimination de ces défis en améliorant la collaboration. Chaque locataire client a exactement un OneLake. Il ne peut jamais y avoir plus d’un et si vous avez du tissu, il ne peut jamais y avoir zéro. Chaque locataire Fabric provisionne automatiquement OneLake, sans ressources supplémentaires pour configurer ou gérer.

Régi par défaut avec la propriété distribuée pour la collaboration

Le concept d’un locataire est un avantage unique d’un service SaaS. Savoir où commence et se termine l’organisation d’un client fournit une limite naturelle de gouvernance et de conformité, qui est sous le contrôle d’un administrateur client. Toutes les données qui atterrissent dans OneLake sont régies par défaut. Bien que toutes les données se trouvent dans les limites définies par l’administrateur du locataire, il est important que cet administrateur ne devienne pas un gardien central empêchant d’autres parties de l’organisation de contribuer à OneLake.

Au sein d’un locataire, vous pouvez créer n’importe quel nombre d’espaces de travail. Les espaces de travail permettent aux différentes parties de l’organisation de distribuer des politiques de propriété et d’accès. Chaque espace de travail fait partie d’une capacité liée à une région spécifique et facturée séparément.

Diagram showing the function and structure of OneLake.

Dans un espace de travail, vous pouvez créer des éléments de données et accéder à toutes les données dans OneLake via des éléments de données. Comme pour la façon dont Office stocke les fichiers Word, Excel et PowerPoint dans OneDrive, Fabric stocke les lakehouses, les entrepôts et d’autres articles dans OneLake. Les éléments peuvent fournir des expériences personnalisées pour chaque personnage, comme l’expérience de développeur Spark dans un lakehouse.

Pour plus d’informations sur la prise en main de OneLake, consultez Création d’un lakehouse avec OneLake.

Ouvrir à tous les niveaux

OneLake est ouvert à tous les niveaux. OneLake est basé sur Azure Data Lake Storage (ADLS) Gen2 et peut prendre en charge n’importe quel type de fichier, structuré ou non structuré. Tous les éléments de données Fabric tels que les entrepôts de données et les Lakehouses stockent automatiquement leurs données dans OneLake au format delta parquet. Si un ingénieur données charge des données dans un Lakehouse à l’aide de Spark, puis qu’un développeur SQL utilise T-SQL pour charger des données dans un entrepôt de données transactionnel complet, les deux contribuent au même lac de données. OneLake stocke toutes les données tabulaires au format Delta Parquet.

OneLake prend en charge les mêmes API et SDK ADLS Gen2 pour être compatibles avec les applications ADLS Gen2 existantes, y compris Azure Databricks. Vous pouvez traiter les données dans OneLake comme s’il s’agit d’un compte de stockage ADLS volumineux pour l’ensemble de l’organisation. Chaque espace de travail apparaît sous la forme d’un conteneur dans ce compte de stockage, et différents éléments de données apparaissent sous forme de dossiers dans ces conteneurs.

Diagram showing how you can access OneLake data with APIs and SDKs.

Pour plus d’informations sur les API et les points de terminaison, consultez Accès et API OneLake. Pour obtenir des exemples d’intégrations de OneLake à Azure, consultez les articles Azure Synapse Analytics, Explorateur stockage Azure, Azure Databricks et Azure HDInsight.

Explorateur de fichiers OneLake pour Windows

OneLake est le OneDrive pour les données. Tout comme OneDrive, vous pouvez facilement explorer les données OneLake à partir de Windows à l’aide de l’explorateur de fichiers OneLake pour Windows. Vous pouvez parcourir tous vos espaces de travail et éléments de données, charger, télécharger ou modifier facilement des fichiers comme vous le faites dans Office. L’Explorateur de fichiers OneLake simplifie l’utilisation des lacs de données, ce qui permet même aux utilisateurs professionnels non techniques de les utiliser.

Pour plus d’informations, consultez Explorateur de fichiers OneLake.

Une copie de données

OneLake vise à vous donner la plus grande valeur possible à partir d’une seule copie de données sans déplacement ou duplication de données. Vous n’avez plus besoin de copier des données simplement pour l’utiliser avec un autre moteur ou pour décomposer les silos afin de pouvoir analyser les données avec des données provenant d’autres sources.

Les raccourcis connectent les données entre les domaines sans déplacement de données

Les raccourcis permettent à votre organisation de partager facilement des données entre des utilisateurs et des applications sans avoir à déplacer et dupliquer inutilement des informations. Lorsque les équipes travaillent indépendamment dans des espaces de travail distincts, les raccourcis vous permettent de combiner des données dans différents groupes d’entreprises et domaines dans un produit de données virtuel pour répondre aux besoins spécifiques d’un utilisateur.

Un raccourci est une référence aux données stockées dans d’autres emplacements de fichiers. Ces emplacements de fichiers peuvent se trouver dans le même espace de travail ou dans différents espaces de travail, dans OneLake ou externe à OneLake dans ADLS, S3 ou Dataverse, avec bientôt plus d’emplacements cibles. Quel que soit l’emplacement, les raccourcis rendent les fichiers et les dossiers comme si vous les avez stockés localement.

Diagram showing how shortcuts connect data across workspaces and items.

Pour plus d’informations sur l’utilisation des raccourcis, consultez Raccourcis OneLake.

Une copie de données avec plusieurs moteurs analytiques

Même si les applications peuvent avoir une séparation du stockage et de l’informatique, les données sont souvent optimisées pour un seul moteur, ce qui rend difficile la réutilisation des mêmes données pour plusieurs applications. Avec Fabric, les différents moteurs analytiques (T-SQL, Spark, Analysis Services, etc.) stockent des données au format parquet delta ouvert pour vous permettre d’utiliser les mêmes données sur plusieurs moteurs.

Il n’est plus nécessaire de copier des données simplement pour les utiliser avec un autre moteur. Vous êtes toujours en mesure de choisir le meilleur moteur pour le travail que vous essayez d’effectuer. Par exemple, imaginez que vous avez une équipe d’ingénieurs SQL qui créent un entrepôt de données de transaction complet. Ils peuvent utiliser le moteur T-SQL et toute la puissance de T-SQL pour créer des tables, transformer des données et charger les données dans des tables. Si un scientifique des données souhaite utiliser ces données, il n’a plus besoin de passer par un pilote Spark/SQL spécial. OneLake stocke toutes les données au format Delta Parquet. Les scientifiques des données peuvent utiliser toute la puissance du moteur Spark et de ses bibliothèques open source directement sur les données.

Les utilisateurs professionnels peuvent créer des rapports Power BI directement sur OneLake à l’aide du nouveau mode de lac direct dans le moteur Analysis Services. Le moteur Analysis Services est ce qui alimente les modèles sémantiques Power BI, et il offre toujours deux modes d’accès aux données : l’importation et la requête directe. Le mode lac direct offre aux utilisateurs toute la vitesse d’importation sans avoir besoin de copier les données, en combinant le meilleur de l’importation et de la requête directe. Pour plus d’informations, consultez Direct Lake.

Diagram showing how multiple items and engines use the same copy of data.

Diagramme d’exemple montrant le chargement de données à l’aide de Spark, l’interrogation à l’aide de T-SQL et l’affichage des données dans un rapport Power BI.

Création d’un Lakehouse avec OneLake