La démarche de big data
n’est pas nouvelle et même le terme big data n’est pas nouveau. Il est apparu en
1997, il a donc maintenant 25 ans. A cette époque les statisticiens
responsables de marketing se heurtaient à deux difficultés : l’accumulation
assez massive de données dans les Datawarehouse et les difficultés pratiques
d'application des techniques existantes de Data Mining. Ces problèmes se
posaient en fait depuis de nombreuses années. Elles sont probablement apparues
dès les années 70 du siècle précédent. Ils ont donc plus de 50 ans. Entre temps
la puissance et les capacités de stockage des ordinateurs ont considérablement
évolués. Il devenait urgent de trouver des solutions technologiques efficaces aussi
bien concernant aussi bien le stockage des données que leur traitement.
Aujourd'hui, le big data est un concept plutôt bien défini mais il traine à son propos un certain nombre de mythes qui rendent incertaine une claire compréhension de ce que c’est réellement et surtout la démarche qu’il est nécessaire de mettre en œuvre. Certains rêvent de créer des « data lake » sans trop savoir ce que ce terme recouvre. Résultat, on empile des masses de données sans les avoir bien contrôlées et qui s’avèrent, à la fin, inexploitables.
L’innovation date d’une dizaine d’année avec le développement de Hadoop par Doug Cutting en 2006 (qui donnera lieu à une première version publique open source en 2011). Jusqu’alors on était tenu par la taille maximum autorisée des bases de données classiques de l’ordre de quelques millions d’occurrences. Aujourd’hui il n’y a plus de limite. A l’origine de cette innovation il y a les travaux de Google de 2001 à 2003 pour gérer des fichiers de taille illimitée répartis sur un grand nombre de disques et améliorer son moteur de recherche. Ils ont innové en inventant le Google File System puis le Google Big Table ainsi que le fameux algorithme MapReduce. Ce fut une véritable révolution de la démarche statistique classique. On n'était plus obligé de travailler sur des échantillons de données plus ou moins tirées au sort mais sur l’ensemble des données disponibles. C’est une révolution copernicienne. Toutes les approches changent et ce qui était jusqu’alors impossible devient possible.
Depuis, un certain nombre d’autres innovations sont apparues, notamment des algorithmes d’Intelligence Artificielle qui sont capables d’effectuer des analyses de données jusqu’alors inimaginables. Elles ont permis d’obtenir des résultats spectaculaires. Il est ainsi possible de déterminer le profil personnel de chaque client, d’anticiper ses attentes et de lui faire des offres personnalisées. On peut de même faire des offres à un grand nombre de prospects.
Les leaders dans ce domaine sont les grandes entreprises du Web comme Amazon, Google, Facebook, Netflix, You Tube, Spotify, …. Elles ont développé des outils très puissants. De plus elles ont largement communiqué sur le sujet. Du coup de très nombreuses autres entreprises plus traditionnelles se sont lancées dans ce type de démarche. Cependant à ces annonces se sont ajoutés une part de rêve et il est aujourd’hui difficile en matière de big data de distinguer ce qui relève du mythe et la réalité, du fantasme et de la réalité de terrain, entre l’intox et la vérité.
La conférence de Georges Bressange faite au
Club de la Gouvernance des Systèmes d’Information le 9 novembre 2022 sur le
thème : « Mythes et réalité du Big Data » a permis de faire le
point sur ce sujet et de répondre aux questions clés que chacun se pose :
- - Quels sont les mythes entourant le Big Data et quels sont les conséquences de ces croyances ?
- Que revêt exactement et concrètement la notion de Big Data dans la plupart des entreprises qui l'ont initié ? Les définitions sont nombreuses et certaines sont plus exactes que d’autres.
- Quels sont les résultats obtenus grâce à une démarche efficace ? Quelles sont les succès et les échecs ? Quels sont les causes de ces difficultés ?
- - Plus généralement, quelles sont les promesses qu’il est possible d’attendre de ce type de démarche ?
- Quelles sont les problèmes et les freins rencontrés dans la mise en œuvre de solutions de big data notamment en termes de gouvernance des données ?
- Quelles sont ses limites actuelles du big data et aussi quels sont ses travers ?
·
Mythe 1 « Le Big Data c’est nouveau »
slides 3 à 19
o
Hadoop et Mapreduce slides 10 à 15
o
Domaines impactés par le Big Data slides 16 à 19
·
Mythe 2 « Seule la valeur des données
comptes » slides 20 à 37
o
Définition du Big Data slides 29 à 37
·
Mythe 3 « Le Big Data c’est magique. Cela
marche tout seul ! Il n’y a qu’à bâtir le Data Lake » slides 38 à 49
o
Cas pratique slides 41 à 49