« Aujourd’hui, énormément d’entreprises veulent faire du Data Analytics, du big data, de l’IA ou du deep learning ». « Pourtant, sans le carburant nécessaire à l’alimentation de ce type de projet, rien ne peut se faire. Or l’essence, ce sont les données ».

Data Lake

Alors que les données structurées sont stockées dans un datawarehouse, une base de données où elles sont facilement requêtables et rapidement interprétables, la démarche est tout autre pour les données non structurées. Ces dernières, provenant d’un grand nombre de sources, doivent être stockées, elles, dans un entrepôt de données : le Data Lake.

Data Lake
Un Data Lake permet de stocker dans un même endroit une grande quantité de données enrichies pour un coût environ 15 à 20 fois moins élevé que celui d’un stockage de production, qui demande beaucoup de performance. Un Data Lake peut par ailleurs être on-premise ou hors-site, en cloud privé ou en cloud public selon le niveau de protection souhaité, le niveau d’agilité nécessaire, les impératifs budgétaires, etc.

Ces données ne sont pas exploitables ou interprétables telles quelles. Elles doivent être enrichies de métadonnées. Aux quelques champs classiques (créateur, date, heure, type de fichier) dont chacun est familier, s’en ajoutent plus de 40 qui permettent de définir le fichier, de le comprendre, de trier très rapidement la data pour la travailler et en extraire, par exemple, des statistiques ou des pistes d’amélioration de processus.

L’enjeu pour les entreprises est capital : avant même de parler de Data Analytics, la première étape de toute stratégie d’utilisation de data consiste en effet à trouver cette fameuse donnée, la structurer, l’enrichir et savoir ce qu’elle contient. Vient ensuite la phase de data visualisation : avant d’interpréter la data, on visualise ce qui est à notre disposition.

Data Lake

Vos données valent de l’or : maîtrisez-les !

La Data Analytics permet de comprendre un métier, mais aussi ce qui n’est pas optimal au sein d’une entreprise, dans ses process par exemple. Grâce à l’utilisation d’un datalake, on peut exploiter un processus métier, et éventuellement l’optimiser. Maîtriser ses propres données revêt dès lors un aspect capital. « Si quelqu’un dispose de vos données de manière enrichie, les comprend plus vite, est plus agile que vous, il peut très vite repérer ce qui ne fonctionne pas dans votre processus, vous dire quoi faire, voire le faire à votre place. Là est le danger ». « Confier son datalake à un tiers sans se poser de question, par exemple pour des problématiques de communication entre une DSI métier et une DSI informatique, c’est prendre le risque de se faire ubériser. »

Il est donc capital de ne pas stocker les données n’importe où et de protéger son capital intellectuel et de métier. « Un opérateur de cloud public, même s’il anonymise les données, peut les monétiser », explique le CTO. « Les entreprises ne sont pas à l’abri de se faire doubler ». D’où l’importance, capitale, de penser à conserver sa souveraineté.