Depuis quelques
années les entreprises se sont engagés dans la transformation numérique. C’est
une mutation importante qui leur posent de nombreux problèmes. Elles doivent d’abord
trouver des idées de produit ou de service originaux. Il leur faut ensuite
trouver les compétences nécessaires pour les mettre en œuvre. Mais ce n’est que
le début des changements car il est ensuite indispensable de faire évoluer
l’organisation et les systèmes d’information. Or, ces derniers sont des objets
lourds et complexes à manipuler. De plus il est difficile de les faire évoluer.
C’est le cœur des mutations à venir et seul les entreprises qui seront capables
de les mener à leur terme seront capables de bénéficier des transformations
numériques.
Pour apprécier les
enjeux et les difficultés de cette révolution technologique et organisation il
est nécessaire de comprendre les raisons des évolutions nécessaires des
systèmes d’information actuels.
La déferlante
du numérique et l’avenir des systèmes d’information
A chaque fois que
l’informatique a connu une rupture technologique comme les bases de données, les
PC, Internet, … on a constaté l’apparition de nombreuses nouvelles
applications. La transformation numérique connait le même phénomène qui va se traduire
par l’apparition de nombreuses nouvelles applications. En effet elle repose sur
l’apparition de nouveaux matériels, de logiciels systèmes puissants, d’applications
originales et de nouvelles modalités d’organisation. Ces innovation se traduisent
par l’apparition de nouvelles entreprises, les start-ups, qui sont organisées
autour d’une ou plusieurs applications comme Uber, Airbnb, Dropbox, Xiaomi, Snapchat,
Pinterest,…
En France ce sont des entreprises comme BlaBlaCar,
OVH, Ventes-Privée, Sigfox, Critéo, ... Mais c’est aussi le cas des entreprises
aujourd’hui arrivées à maturité comme : Amazon, Facebook, Google, … Notons
que ces innovations apparaissent plus rarement de grandes entreprises
traditionnelles.
Si on analyse les raisons du succès de ces
entreprises on constate qu’elles reposent en grande partie sur leur capacité à
développer des softwares de qualité, efficaces et facile d’emploi. Rechercher
un livre avec Amazon, le commander et le payer est d’une grande facilité. C’est
le résultat d’une application polie depuis de nombreuses années. Il suffit de la
comparer à de nombreux autres sites pour voir la différence. Dans ces sites on
passe beaucoup de temps à rechercher une information et les opérations les plus
simples sont compliquées à loisir. C’est le résultat d’un énorme travail de
simplification et de polissage. Souvent on appelle ces sites des « plateformes ».
Le terme est séduisant mais insuffisant. Il est vrai que les grands opérateurs
comme Google, Amazon, Facebook, Apple, Microsoft, …. ont construit des centres
de traitement avec des dizaines de milliers de serveurs. Mais le hardware ne
constitue qu’une partie de la révolution.
Le cœur de la mutation repose sur la mise en place de
systèmes d’information gigantesque qui vont bien au-delà de la taille des
systèmes traditionnels comme la comptabilité ou la facturation des entreprises
traditionnelles. Des entreprises traditionnelles avaient déjà développé d’importants
systèmes d’information comme les compagnies aériennes et notamment Amadeus qui
gère les réservations de 170 compagnies et distribue des produits de voyage à
350.000 agences de voyage et gère 5.000 sites web de réservation ([1]).
Il existe d’autres systèmes de réservations aériennes comme Sabre ([2]),
Galiléo et WorldSpan. Les nouveaux systèmes d’information mis en place par les
GAFA et les autres opérateurs sont voisins des systèmes de gestion de
réservations mais ils sont sans commune mesure avec eux.
Les systèmes
d’information classiques
Pour comprendre
la nature de la mutation qui se produit sous nos yeux il est nécessaire de
revenir sur la nature des systèmes d’information classiques. Ils sont de deux
types :
·
Les systèmes ponctuels. C’est l’architecture
traditionnelle des applications. Chacune à ses propres entrées, ses traitements
et son stockage de données. Les échanges entre systèmes se font en back-office
par transmission de fichiers entre bases de données. Cette architecture est née
spontanément des premiers développements informatiques. Ces applications faciles
à développer mais elles ont de nombreux inconvénients comme la multiplication
des ressaisies de données, des pertes de données ou au contraire de nombreux doublons,
… Le défaut le plus grave est le risque de désajustement entre les bases de
données. Ainsi le chiffre d’affaires peut varier selon la base de données
interrogée. C’est une situation désagréable !
Schéma 1 - Architecture des systèmes d'information avec des systèmes ponctuels |
·
Les systèmes intégrés. Toutes les données de
l’entreprise sont stockées dans une seule base de données. Dès qu’une donnée
est saisie l’ensemble des applications peuvent y accéder. En pratique ce sont
plusieurs bases de données que les différentes applications mettent à jour,
consultent, … C’est l’architecture type des ERP. Elle est bien adaptée aux
bases de données notamment aux bases relationnelles. Par contre ces systèmes
sont délicats à mettre en place et difficiles à faire évoluer. Ils sont complexes
et lourds. C’est la rançon de l’intégration.
Schéma 2 - Architecture des systèmes d'information autour d'un système intégré |
Les nouveaux
systèmes d’information
A côté de ces
systèmes d’information classique orientés vers l’aide à la gestion des
entreprises on a constaté depuis 20 ans l’apparition d’une nouvelle classe de systèmes
d’information :
·
La messagerie. Ce n’est pas une application
récente mais un ancien système remontant aux années soixante avec le système
AUTODIN répondant aux besoins du Ministère de la Défense américain. Il fut
suivi par CTSS MAIL du MIT fonctionnant avec le système d’exploitation de
time-sharing CTSS
ainsi que le logiciel ATS/360 d’IBM. En 1971
SNDMSG fut le premier système de courrier électronique reposant sur le système
de time-sharing TENEX. Cette application a connu une véritable explosion à la
fin des années 90 avec le développement d’Internet et des protocoles SMTP, MINE,
POP3 et IMAP (Pour en savoir plus sur les systèmes de messagerie, cliquez ici).
·
Les moteurs de recherche. Dès que le Web s’est
développé il fut nécessaire de se retrouver parmi les nombreux sites existants.
Le premier moteur de recherche fut Aliweb en 1993. Il y eu ensuite AltaVista,
Yahoo !,… En 1998 sont apparus Google et MSN Search de Microsoft (appelé
aujourd’hui Bing),… De nombreux moteurs ont échoué comme Quaero qui était
projet franco-allemand ambitieux (Pour en savoir plus sur les moteurs derecherche, cliquez ici. ).
·
Le commerce électronique, c’est un ensemble
d’activité dont l’achat de biens et de services sur Internet par les
particuliers mais aussi par entre entreprises, le transfert électronique de fonds,
la gestion de la chaîne d'approvisionnement, l'échange électronique de données
(EDI), les systèmes de gestion automatique des stocks et les systèmes
automatisés de collecte de données. Les premiers sites de commerce électronique
sont apparus avec le Minitel en 1982 mais il s’est surtout développé à partir
de 1992-1995 avec le développement du Web. On estime le chiffre d’affaires
mondial du commerce électronique à 1.671 milliards de dollars en 2015 soit
environ 7 % du commerce total et il croit de 25 % par an. En France il est estimé
à 65 milliards d’euros en 2015 en croissance de 14 % par an. Cette activité est
effectuée par 182.000 sites. Les sites les plus importants sont Amazon (3,1
milliards d’euros), Cdiscount (1,9 MM€), Ventes-privée (1,9 MM€), Darty (0,5
MM€), Show-room-privé (0,5 MM€), Auchan (0,4 MM€), FNAC (0,4 MM€), …
· Les médias-sociaux. On pense bien sûr à Facebook
mais il existe de nombreux autres réseaux-sociaux comme LinkedIn, Viadeo,
Twitter, Skype, Wikipedia, Viber, Blogger, WordPress, OverBlog, YouTube,
DailyMotion, Flickr, Instagram, WeChat ([3]),
Snapchat, Printerest, Twiter, Tumblr, WhatsApp, Weibo, Line, Google +, Baidu
Tieba,… (Pour en savoir plus sur les réseaux sociaux, cliquez ici). Comme on le voit ces applications sont très nombreuses et ont des usages
très variés. Elles ont un impact considérable. Il suffit de se rappeler leur
rôle dans les Printemps Arabes ou dans l’élection de Donald Trump. Leur usage
par l’EI ne doit pas faire oublier leur rôle social très positif comme celui de
Wikipédia.
·
……
Or toutes ces nouvelles applications sont des systèmes
d’information ayant la même structure que les applications traditionnelles :
· Des entrées. Elles sont pour l’essentiel faites
par les utilisateurs sur leur PC ou leur smartphone. Les applications avaient été
appelées il y a quelques années le Web 2.0.
·
Des stockages. Très vite les bases de données
classiques ont été saturées et l’accroissement de ces volumes a amené la
création de logiciels capables de supporter des bases de données de taille
illimitée.
·
Des traitements. Ils sont conséquents et
nécessitent des puissances de traitement considérables. Il est pour cela des
disposer de puissants centres de traitements (Data Center) comprenant des
dizaines de milliers de serveurs.
·
Des sorties. Ils sont très variés comme des consultations,
des transferts de données, des éditions de documents (bons de commande, relevés
d’activité, ….)
Schéma 3 - Représentation simplifiée d’un système d’information |
Les grands
services Internet sont des systèmes d’information
La plupart des
grandes applications sont des systèmes d’information. Pour s’en assurer il
suffit d’en analyser quelque unes :
·
Messagerie type Gmail ou Outlook. Elle
fonctionne à l’aide de trois systèmes de gestion des messages différents :
·
Le système central fonctionnant sur un serveur
puissant (ou plutôt des milliers de serveurs côte à côte) avec des capacités de
stockage importantes.
·
Un accès Web permettant de consulter les
messages sur le serveur cental à l’aide d’un browser comme Chrome, Firefox,
Internet Explorer, …
·
Un logiciel de gestion des messages fonctionnant
sur PC avec un stockage des messages en local.
Une application de
messagerie repose sur deux bases de données
·
L’indentification des utilisateurs. Il permet de
fixer des paramètres spécifiques à chacun notamment les adresses des serveurs,
les protocoles d’échanges, la localisation du stockage des messages, leur durée
de rétention, ….
·
Les messages reçus et envoyés. Cela représente des
volumes de données très importants. Un utilisateur peut émettre ou recevoir 100
mails par jour. S’il y a dans une entreprise 100.000 utilisateurs cela fait 10
millions de mails à traiter par jour. Ce sont des volumes considérables. De
plus il faut conserver les mails. Ce sont des volumes de stockage très
importants.
Il est aussi possible
d’avoir un fichier des adresses de messages de type SPAM de façon à les
éliminer. Certaines adresses mail sont communes et concernent tous les comptes
et d’autres sont spécifiques à chaque utilisateur.
· Amazon. C’est un des plus importants sites de
commerce électronique au monde. Pour fonctionner il a besoin de trois bases de
données :
·
Les ouvrages avec leur description :
auteur, titre, éditeur, nombre de pages,… puis des photos et des textes de
présentation, des commentaires de lecteurs, les autres livres que les acheteurs
de ce livre ont choisis,… Lorsque le site s’est transformé en un supermarché la
description des autres articles à vendre ont été stockés de la même manière.
·
Les clients. Cette base de données contient tous
les renseignements nécessaires pour expédier la commande au client, les
informations pour le paiement (carte bancaire), son adresse de facturation, …
Elle contient aussi des informations concernant le client afin de mieux le
connaître : préférences, retours, incidents, …
·
Les transactions. Ce sont le détail des
commandes, des informations d’expéditions et des encaissements permettant
d’effectuer le picking, l’expédition, la gestion des retours, … Il est ainsi
possible de connaître l’historique des achats d’un client et de lui faire des
propositions adaptées.
Le succès d’Amazon tient à
la qualité des écrans et de leur enchaînement. Les opérations se font sans
peine. C’est un exemple parfait de système d’information dédié au commerce
électronique.
·
Google. C’est le moteur de recherche le plus
utilisé dans le monde. Il repose sur quatre bases de données :
·
La copie du Web. Un robot lit un à un tous les
sites Web et parcours toutes les pages et les recopient sur un serveur appelé « le
cache ». Il stock environ 30.000 milliards de pages. Il détecte les pages
nouvellement créées ainsi que les modifications faites sur des pages
existantes.
·
Les index. Le programme effectue ensuite une
analyse syntaxique des textes de toutes les pages chargées et constitue un
index de tous les noms et les mots-clés utilisés afin de pouvoir trouver d’avoir
l’adresse des sites et des pages concernés.
·
Lorsqu’un utilisateur recherche une information
([4])
il suffit de consulter l’index et d’afficher les pages concernées avec le nom
de la page recherchée, l’adresse du site, éventuellement la date de création de
la page et un court extrait de celle-ci. Les recherches faites par les utilisateurs
sont stockées puis ultérieurement analysées afin de connaître les termes les
plus couramment recherchés et de stocker les requêtes les plus courantes,
·
Les requêtes des utilisateurs permettent de connaître
les centres d’intérêt de chacun afin d’afficher sur les sites qu’ils consultent
des bandeaux publicitaires ciblés. Google est devenu la principale agence de
publicité sur Internet. L’essentiel de ses revenus viennent de la publicité.
Le succès du moteur de
recherche est dû à la pertinence des réponses qu’il fournit. Ceci est dû à un
algorithme basé sur le Page Rank, c’est-à-dire une note permettant d’évaluer la
popularité d’une page et de déterminer l’ordre d’affichage dans la page dans la
réponse à la requête.
· Uber. La gestion en temps réel d’une flotte de
taxis repose sur un système d’information sophistiqué. Il est pour cela nécessaire
de gérer cinq bases de données :
·
La base des véhicules permet de les identifier,
de suivre leur position dans la ville et de connaître leur statut : avec
un client, vide ou à l’arrêt.
·
Les chauffeurs sont différents des véhicules car
ils peuvent se partager à plusieurs un véhicule.
·
Les clients, leur numéro de téléphone et le
détail de leur carte de crédit,
·
Les plans des villes de façon à repérer les
taxis les plus près du client, d’indiquer au client où se trouve le taxi qui
lui est assigné et, le cas échéant, proposer au chauffeur le parcours optimal
compte tenu de l’état de la circulation.
·
La liste des courses faites par chaque chauffeur
et les encaissements effectués pour son compte de façon à calculer sa
rémunération.
Ce système d’information est
un véritable challenge technologique car il doit doit fonctionner en temps réel
sans interruption et sans saturation.
La plupart des applications nouvelles comme Facebook,
LinkedIn, Pinterest, Flickr, Tumblr, Twitter, ... sont des systèmes
d’information de très grandes tailles. Cependant il ne faut pas s’imaginer que toutes
les applications disponibles sur Internet sont des systèmes d’information.
Lorsqu’on examine les « stores » proposant des applications on
constate qu’un grand nombre sont de simples outils permettant de consulter un
journal électronique ou d’afficher d’un bulletin météo.
Et le Big Data
est arrivé
Pendant longtemps
la capacité des bases de données classiques type IBM DB2, Oracle, MySQL,
PostgreSQL, Microsoft SQL Server, … étaient limitées à quelques millions
d’occurrences. Si on avait besoin de stocker plus d’éléments il fallait
segmenter cette base en plusieurs sous-bases. C’était une galère pas
possible ! Chaque requête devait être dupliquée autant de fois qu’il y a de
bases de données existantes et le résultat obtenus sur chaque base doit ensuite
être consolidée en un seul ensemble.
En 2000, une
petite société de service, Seisint, a eu l’idée de développer un ensemble de
programmes écrit en C++ capable de gérer des données structurées et
non-structurées stockées sur de multiples serveurs et pouvant traiter les
requêtes qui leur sont soumises sur chaque serveur, en parallèle, et de
consolider le résultat.
Cette société fut
rachetée en 2004 par LexisNexis qui est un des plus importants éditeurs de
bases de données documentaire et juridique mondial qui avait su, dès les années
soixante-dix, proposer la recherche dans l’ensemble des textes.
La même année
Google a repris ces idées afin de mieux répondre à ses besoins de stockage de
données et a développé une architecture voisine de celle mise en œuvre de
LexisNexis appelée MapReduce. C’est la base de l’architecture Hadoop qui est en
passe de devenir un standard grâce à HDFS ([5])
qui est un logiciel libre développé et diffusé par l’Apache Software Fondation.
Cette
architecture est reprise par de nombreux produits comme Google FS,
BigTable, HBase, Hive, Pig, Phoenix, MapR, …. Elle fonctionne sur le cloud chez
les principaux fournisseurs : Cloudera, Amazon dans Elastic MapReduce disponible
dans Amazon Web Services, Azure HDInsight, IBM
BigInsights for Hadoop, …. Dans les prochaines années ses systèmes, et d’autres
qui les rejoindront, vont bouleverser l’approche traditionnelle de
l’informatique.
La
multiplication des applications possibles
Comme on le voit
le Big Data c’est d’abord de la plomberie. Mais la possibilité de créer des
bases de données de taille illimitée a permis de développer d’un grand nombre
de nouvelles applications qui ont élargi de manière considérable le domaine des
possibles :
·
Marketing.
C’est le secteur où on trouve actuellement le plus grand nombre d’applications
notamment dans le domaine de l’analyse des comportements des acheteurs et des
prospects en particulier ceux présents sur Internet. Depuis des années Wal-Mart
analyse en permanence les tickets de caisse de ses millions d’acheteurs
journaliers et ainsi détecte des opportunités. Aujourd’hui le succès de sites
comme Amazon, You Tube, Netflix, Spotify, … repose sur l’analyse du
comportement de leurs clients et de leurs prospects. Il est ainsi possible de
faire des offres ciblées répondant mieux à leurs attentes.
Ces
mêmes techniques peuvent être utilisées lors des élections en exploitant des
bases de données constituées à partir des listes électorales, des résultats des
dernières élections par bureau de vote, des bases de localisation géographique
et des bases décrivant les caractéristiques sociales et économiques de ces
populations afin de détecter les électeurs tièdes et de les signaler à des
militants pour les inciter à voter. C’est la base des programmes de portes à
portes ou de relance téléphonique qui expliquent les succès de Barack Obama et
de François Hollande en 2012 et du BJP (Bharatiya
Janata Party) en Inde en 2014 ([6]).
Toutes
ces techniques de marketing fin sont à l’opposé du marketing de masse
traditionnel. Elles reposent fondamentalement sur le rapprochement de
différentes bases de données de très grandes tailles.
·
Analyse
des données. C’est le domaine classique des calculs de régression, des
analyses en composantes principales, des analyses factorielles multiples, …
Mais au lieu de travailler sur des échantillons et des panels avec le risque de
commettre des erreurs d’échantillonnage les statisticiens vont pouvoir
travailler sur l’ensemble des données. Dans ces conditions on sera certain des
résultats car on prendra en compte l’intégralité de toutes les données. Ceci
entraine un développement rapide du vaste domaine du Data Mining qui concerne
les données chiffrées mais aussi les textes, les données géographiques, les
enregistrements audio, les images, …. Il ne faut pas s’imaginer qu’on va
découvrir automatiquement ces choses qu’on ignorait jusque-là. Il n’existe pas
de mines d’or cachées. On va simplement mieux connaitre et surtout mieux
quantifier des modèles qui jusqu’alors étaient plus ou moins connus.
·
Développement
de nouveaux services. Les plus grands utilisateurs de Big Data sont
actuellement les GAFA et notamment Facebook qui stocke 50 milliards de photos
sur une base Hadoop. De même Amazon, Google, eBay, You Tube, … mettent en œuvre
des bases de données de grandes capacités pour fournir leurs services actuels.
Le
Big Data est aussi utilisé par les entreprises de « reciblage
publicitaire » comme Criteo. (Pour la définition du « reciblagepublicitaire » sur Wikipédia cliquez ici ). Cependant pour l’usager moyen un meilleur ciblage des publicités ne se
traduit pas forcément par une amélioration des services fournis mais simplement
ne pas encombrer l’écran de messages inadaptés.
Par
contre la possibilité de suggérer aux utilisateurs des recommandations adaptées
à leurs goûts et à leurs attentes comme le font déjà You Tube, Netflix, Amazon,
LinkedIn, Facebook, iTunes, ... est un progrès. Demain les grands
distributeurs, les banques, les assureurs, les compagnies aériennes et les
agences de voyages, …. vont pouvoir personnaliser leurs offres en fonction des
préférences de leurs clients. Ces approches ne sont pas réservées au seul
secteur commercial. Elles vont aussi être mises en œuvre dans des domaines
comme l’éducation où la culture.
·
Santé.
A partir des millions de prescriptions stockées dans les bases de données de la
sécurité sociale il est possible de mesurer l’impact des traitements sur la
santé des patients. Ceci permet de détecter les traitements dangereux ou
inefficaces et de recommander aux médecins de prescrire ceux ayant montrés leur
efficacité.
Il
est aussi possible d’effectuer des analyses épidémiologiques fine ou de faire
de la médecine prédictive en évaluant les risques concernant des populations
déterminées et en identifiant les groupes à risques. Une autre possibilité est
d’analyser le génome de larges populations de façon à identifier les risques de
maladies génétiques notamment certains types de cancers. Mais ces possibilités
sont actuellement freinées par les réticences d’une grande partie du corps
médical.
·
Sécurité.
La NSA a construit dans l’Utah une plateforme ayant une capacité de stockage
gigantesque. On estime qu’elle serait comprise entre 3
et 12 exaoctets (soit des milliards de gigaoctets) stockés sur 10 000
de serveurs de données (Pour en savoir plus sur l’Utah Data Center surWikipédia cliquez ici ). Les données sont ensuite exploitées avec des logiciels type PRISM dont
l’existence a été divulguées par Edward
Snowden (Pour en savoir plus sur PRISM cliquez ici ) et ainsi de surveiller l’ensemble d’Internet et des communications
téléphoniques mondiales. En France, la DGSE, avec des moyens plus limités, a
développé le Pôle National de Cryptanalyse et de Décryptement (PNCD). En Grande
Bretagne ce travail est assuré par le GCHQ : Government Communications
Headquarters.
Autre
approche possible : grâce au Big Data il est possible de suivre une
personne qui se déplace en ville grâce aux milliers de cameras-vidéos qui s’y
trouvent et aux possibilités offertes par la reconnaissance faciale. On peut
aussi suivre les véhicules automobiles roulant sur les autoroutes et dans les
villes grâce à la lecture automatique des plaques minéralogiques.
·
Sciences.
Le Large Hadron Collider (LHC) du CERN produit 600 millions de collisions d’atomes
par seconde et il doit détecter parmi celles-ci celles qui sont intéressantes.
Dans
le domaine astronomique le Sloan Digital Sky Survey collecte automatiquement
toutes les nuits les données concernant des millions d’étoiles et de galaxies.
En quinze ans il a accumulé des données photométriques et spectroscopiques
concernant 500 millions d’objets couvrant environ 35 % du ciel. Son successeur,
le Large Synoptique Survey Telecope, qui arrivera en 2020, permettra de faire
un recensement complet de la voie Lactée en 3D. On estime qu’elle comprend
entre 100 et 400 milliards d’étoiles.
Comme on le voit
le Big Data offre des perspectives considérables et va se traduire par des
développements importants dans des domaines qui jusqu’alors souffraient des
limites des systèmes existants. Un des facteurs important de généralisation des
technologies du Big Data va être, dans les années à venir, le développement de
l’Internet des Objets qui va produire des masses considérables de données qu’il
sera nécessaire de stocker et de traiter.
Toutes ces
innovations vont avoir un impact direct sur les systèmes d’information en place
dans les entreprises et les administrations. C’est le cœur de la transformation
numérique.
L’évolution
des systèmes d’information des entreprises et des administrations
Il existe actuellement dans les entreprises et les
administrations deux sortes de systèmes d’information :
·
Les systèmes d’information opérationnels comme par
exemple la comptabilité, la paie, la facturation, … et plus généralement les ERP,
Entreprise Resource Planning, aussi appelé PGI, Progiciel de Gestion Intégré. On
les appelle aussi les systèmes d’information de gestion.
·
Les systèmes d’information décisionnels souvent
appelés BI, Business Intelligence. Ils utilisent des outils comme SAS, SPSS, Business
Objets, Cognos, …. Mais le logiciel d’analyse actuellement le plus utilisé est
Excel.
On alimente en données les systèmes d’information
décisionnels par « copy management » des systèmes d’information
opérationnels c’est-à-dire par recopie intégrale ou partielle des bases de
données de gestion. Ces opérations représentent une importante charge machine qui
est généralement effectuée de nuit. Mais cette démarche a pour conséquence de se
traduire au fait que les utilisateurs travaillent sur des bases de données qui,
très vite, ne sont plus à jour.
Schéma 4 - Ancienne architecture avec le processus de copy management |
L’apparition des systèmes d’information construite
autour de bases de données de type Hadoop va amener l’apparition d’un troisième
ensemble de données qui vont entretenir des relations complexes avec les autres
systèmes d’information. Une partie des informations arrive par « copy
management » des autres bases et notamment des systèmes d’information opérationnels
et une autre partie des données est saisie en direct.
On arrive ainsi à une architecture un peu tarabiscotée.
En plus de la copie traditionnelle des systèmes d’information opérationnels
vers les systèmes d’information décisionnels des données arrivent directement
sur les bases de Big Data et une partie remonte ensuite vers les systèmes
d’information de gestion tandis que d’autres informations descendent de ces
systèmes vers les bases Big Data. De plus des données remontent directement des
systèmes Big Data vers les systèmes d’information décisionnels. Comme on le
voit les différentes bases de données se recopient les uns sur les autres avec
tous les risques liés à ces pratiques : perte de données, doublons, désajustements
temporels, … On risque d’aboutir ainsi à des systèmes d’informations lourds,
fragiles et finalement peu fiables.
Schéma 5 - La nouvelle architecture avec de nombreux processus de copy management |
Deux
hypothèses d’évolution : séparation ou intégration
Il est certain
que cette nouvelle architecture est peu souhaitable et il va être nécessaire d’envisager
son évolution. Différentes approches sont envisageables. Parmi celles-ci deux
semblent les plus probables :
·
La
séparation des systèmes d’information. La solution consiste à séparer les trois
systèmes et de faire qu’ils soient quasi-indépendants les unes des autres. Seul
est maintenu la copie traditionnelle des données des systèmes d’information
opérationnels vers les bases de données des systèmes d’information décisionnels.
Les autre recopies sont interdites notamment aucune information ne peut migrer
du Big Data vers les systèmes d’information opérationnels ou les systèmes
d’information décisionnels.
Cette solution à
l’avantage d’éviter de toucher aux systèmes d’information en place. Mais ce
blocage risque est de se traduire par des désajustements entre les données du
Big Data et celle des systèmes d’information de gestion.
En pratique, cette
solution n’est pas tenable en longue période car on a souvent besoin de prendre
en compte une partie des données se trouvant dans le Big Data pour alimenter les
systèmes d’information décisionnels et, éventuellement, les systèmes
d’information opérationnels.
·
L’intégration
des trois types de systèmes d’information autour des bases du type Big Data.
Dans ce texte on fait progressivement migrer les bases de données
relationnelles classiques vers des bases Hadoop. Cela va permettre de simplifier
l’architecture des systèmes d’information et notamment les logiciels et la
structure des données. De manière concrète cela permet d’éviter les recopies de
données en tous sens et donc d’éviter d’éventuelles dégradations des données. Autre
avantage important : cette solution permet d’organiser une migration
progressive des bases de données relationnelles vers des bases Hadoop, le temps
que les éditeurs de ces logiciels les mettent à niveau. Enfin, point très
important cette dernière architecture permet d’assurer la mise à jour en temps
réel des bases de secours et, en cas d’incident, assure un redémarrage très
rapide.
Dans cette
nouvelle architecture l’essentiel des transactions se font sur les systèmes
d’information reposant sur des bases de données type Big Data. Elles sont
ensuite répercutées vers les systèmes d’information de gestion et vers les
systèmes d’information d’aide à la décision. Il existe encore un flux marginal
de données directement saisie dans le système d’information de gestion mais il
tend à diminuer avec le temps au profit les systèmes d’information du Big Data.
C’est une évolution considérable de l’architecture des systèmes d’information.
Schéma 7 - La nouvelle architecture avec une intégration des différents systèmes d’information autour des bases Hadoop-Big Data |
Schéma 8 - Evolution à terme de la nouvelle architecture avec intégration des différents systèmes d’information autour de bases de données Big Data |
Des systèmes
d’information d’un type nouveau
La transformation numérique va se traduire par une évolution
des systèmes d’information qui vont progressivement se rapprocher. Il est difficile
de prévoir la manière dont elle peut se dérouler. Cependant on peut prévoir que
ce rapprochement va se faire en trois étapes :
1.
Fusion
des systèmes d’aide à la décision et du Big Data. Une partie des données
sont communes aux deux types de systèmes d’information opérationnels et d’aide
à la décision. Il est donc envisageable d’arriver à terme à une fusion des
bases de données concernées. Ceci va se traduire par une rationalisation des
bases de données et donc amener une simplification des systèmes d’information.
De plus cette fusion évitera les risques de désynchronisation entre ces différentes
bases.
2.
Rapprochement
des systèmes opérationnels et du Big Data à l’aide d’Hadoop. Dans un
deuxième étape l’effort de rationalisation va permettre de rapprocher les systèmes
opérationnels et les applications type Big Data. Le recours au même système de
gestion de base de données va permettre d’alimenter les bases de données des
systèmes opérationnels à partir de différentes bases de données constituées par
les événements qui peuvent survenir sur les sites Web, les objets connectés, ….
3.
Intégration
des grands systèmes d’information liés à Internet et des systèmes de gestion.
C’est la troisième étape du processus de convergence. Certains ERP proposent
déjà des interfaces Web. Pour les autres applications il va être nécessaire de
revoir l’ensemble des processus de saisie des données afin de les faire migrer
des moniteurs de télétraitement classiques vers le Web. Malheureusement les
langages actuellement disponibles dans ces environnements ne sont pas encore
bien adaptés à ce type d’opérations.
Ce planning est assez théorique. Il permet de se
faire une idée sur le chemin d’évolution possible. Il est fort probable que
l’évolution se fera de manière différente.
Quatre exemples permettent d’illustrer les évolutions
en cours concernant ces nouveaux systèmes d’information :
·
La gestion
des factures fournisseurs. Dans une entreprise on reçoit de nombreux
documents des fournisseurs : devis, bons de livraison, factures, avoirs, …
Certains arrivent sous forme électronique mais de nombreuses pièces restent
encore sur papier. Il faut les numériser et les archiver puis lier ces pièces
justificatives aux écritures comptables. Ces bases de données sont de très
grande taille et croissent au fil du temps. De plus il faut sécuriser.
·
Gérer les
mails reçus et envoyés au sein du CRM. Les commerciaux envoient et
reçoivent de nombreux mails avec leurs clients. Les systèmes de CRM (Customer
Relationship Management) sont devenus l’outil privilégié de travail des
commerciaux. Il est pour cette raison souhaitables de retrouver ces mails dans
le système de CRM. Ceci veut dire qu’il est nécessaire de partager et de
sécuriser ces données. De plus on doit pouvoir consulter les nombreux documents
produits (lettres, devis, bons de livraison, retours de marchandises, factures,
avoirs, …) et reçus (lettres, bons de commandes, réclamations, …). Le logiciel de
CRM va devoir intégrer et sécuriser l’ensemble de ces différentes bases de
données autour de la base clients.
·
Lier la
base clients et le suivi des achats clients. Dans un premier temps on
commence par analyser l’ensemble des achats effectués par les clients de façon
à comprendre ce qu’ils recherchent, ce qui les intéressent et quelles sont
leurs attentes. Dans un deuxième temps on va peut aller plus loin et on va s’efforcer
d’identifier les articles qui ont été recherchés qui n’ont pas été achetés par
les clients et par les prospects. L’objectif est de chercher à comprendre pour
quelles raisons ils ont abandonné leur idée d’achat.
·
Comprendre
la logique de recherche et de décision des prospects. Ces traitements
permettent de suivre les consultations du Web effectués par des millions
d’utilisateurs. Le tracking du Web produit par des bases de données de très
grande taille car on suit les navigations des millions d’utilisateurs et des
dizaines de milliers de sites. Il est ensuite nécessaire de rapprocher ces
données de celles obtenues dans le cadre de la gestion des clients afin de pouvoir
évoluer le potentiel d’achat des clients et des prospects.
Ces éléments
montent que le rapprochement des différentes bases de données est en cours.
Au-delà des problèmes techniques la véritable difficulté est d’arriver à les
rendre compatibles.
Les conditions
de la réussite
Ces exemples montrent
que les systèmes d’information existants vont connaître dans les années à venir
à une restructuration en profondeur comme ils les ont connus jadis lors du passage
du séquentiel indexé aux bases de données hiérarchiques puis aux bases de
relationnelles. Pour réussir l’évolution des bases de données vers l’architecture
Hadoop dans de bonnes conditions il va être indispensable de respecter quatre
conditions :
·
Voir loin.
Pour assurer cette migration dans de bonnes conditions il est impératif que
l’entreprise ait une stratégie claire. Elle doit s’attacher à définir des
objectifs clairs permettant de définir ce que sera l’architecture finale et les
produits et les services qui seront fournis aux clients. A défaut d’une cible
clairement définie l’organisation risque de tourner en rond et ne sera pas
capable d’aboutir aux résultats attendus.
·
Savoir
profiter des opportunités. Pour réussir cette transformation il est
nécessaire que l’entreprise soit réactive, ai de l’imagination, fasse preuve
d’une capacité à mettre en œuvre ces changements, … Une entreprise qui n’arrive
pas à saisir les opportunités qui se présentent risque de perdre le contrôle de
ses activités et à terme elle va voir ses parts de marché régresser.
·
Capacité
à imaginer des produits ou des services innovants. Une partie croissante de
la transformation numérique est liée à la capacité des entreprises à imaginer
des approches nouvelles comme on réussit à le faire des start-ups comme Amazon,
Facebook, Uber, Airbnb, Netflix, … On notera qu’un grand nombre d’entreprises
classiques ont du mal à mettre en œuvre des solutions numériques innovantes.
·
Disposer
d’une gestion des opérations qui soit de 1ère classe. La
réussite d’une mutation de grande ampleur nécessite d’avoir une parfaite
maîtrise des opérations comme la gestion de projet, le marketing, le pilotage
et la gestion des opérations, l’exploitation, … Si ce n’est pas le cas le
risque d’enlisement n’est pas négligeable.
Ces quatre conditions constituent le cœur de la
gouvernance des systèmes d’information. Si l’une d’entre-elles est fragile cela
peut mettre en péril et même faire échouer les opérations de transformation
numérique qui semblaient pourtant sur le papier très séduisante.
Les acteurs de
la gouvernance des systèmes d’information
La gouvernance des systèmes d’information concerne
toutes les personnes travaillant dans une entreprise et elle concerne
particulièrement trois groupes d’acteurs :
·
Les
décideurs. Ce sont notamment les directeurs généraux, les présidents, les
administrateurs et les membres des comités de direction. Ils doivent :
- Comprendre
ce que sont des systèmes d’information et leur importance stratégique pour
l’avenir de leur entreprise.
- Etre
capable de faire le lien entre la transformation numérique, les systèmes
d’information et l’informatique.
- Avoir
la capacité de mettre les systèmes d’information au cœur de la stratégie de
leur entreprise.
·
Les DSI.
Ils doivent faire évoluer leur rôle et passer de celui de responsable chargé de
faire fonctionner l’informatique à celui de gestionnaire des systèmes
d’information. Ils doivent pour cela :
- Avoir
une approche business et notamment être capable de lier leur activité à la stratégie
de l’entreprise.
- Prendre
en compte la dimension informatique de la transformation numérique.
- Changer
de rôle pour passer de celui de gestionnaire de l’informatique à la maîtrise
des systèmes d’information.
- Arriver
à travailler en synergie avec les métiers notamment le marketing, le commercial
et la production.
·
Les
métiers. Aujourd’hui la transformation numérique concerne surtout le
marketing et la fonction commerciale mais à terme toutes les fonctions de
l’entreprise sont concernés notamment la recherche & développement, la
production, la logistique, … Les métiers doivent :
- Arrêter
de lancer des gadgets qui ne sont en vérité que des opérations de « Canada
Dry » de la transformation numérique.
- Comprendre
les technologies informatiques et les systèmes d’information. L’inculture en
ces domaines peut mener à de véritables erreurs stratégiques ou l’incapacité de
sortir à temps de nouveaux produits ou de nouveaux services.
- Avoir
une vision globale. Trop souvent les métiers n’ont qu’une vision partielle des
changements qui vont survenir. Ceci fait qu’ils sous-estiment gravement les
investissements à effectuer.
Pour en savoir
plus il suffit de lire ou relire le Manifeste de la gouvernance des systèmes
d’information établis par le Club Européen de la Gouvernance des Systèmes
d’information (ceGSI). (Pour lire le Manifeste de la gouvernance des systemes d’informationcliquez-ici ).
Nécessité de
renforcer la gouvernance des systèmes d’information
Pour réussir la transformation numérique des
entreprises et notamment l’évolution des systèmes d’information, qui en sont le
cœur, il est nécessaire de renforcer la gouvernance des systèmes d’information.
Ce n’est pas une option ou une facilité mais un impératif vital pour assurer
leur survie.
La bonne nouvelle est constituée par les progrès
réalisés depuis 30 ans par la gouvernance informatique (l’IT Governance). Elle
s’est nettement améliorée grâce à un ouvrage, aujourd’hui un peu oublié, Control
Objectives, puis depuis 1996 grâce à CobiT (Pour en savoir plus sur CobiT cliquez ici). Par contre la mauvaise nouvelle est la faiblesse la gouvernance des systèmes
d’information (IS Governance) (Pour en savoir plus sur la gouvernance des systèmes d'informationcliquez ici). Elle n’a pas réalisé les mêmes progrès, loin s’en faut.
Sans une amélioration significative de la gouvernance
des systèmes d’information les évolutions liées à la transformation numérique risquent
d’être longues et aléatoires. McKinsey a pour cela construit un indicateur
mesurant l’aptitude à évoluer dans ce contexte : le MGI’s Industry Digitisation
Index ( Pour lire le rapport sur l’Europe cliquez ici et pour lire le rapport sur les Etats-Unis cliquez ici ). Il mesure l’aptitude des entreprises à assurer d’un pays la transformation
des entreprises par rapport à leur potentiel qui est égal à 100. Selon McKinsey
les Etats-Unis sont actuellement à 18 alors que l’Europe est à 12 avec des
disparités importantes : la Grande Bretagne est 17, les Pays-Bas et la
Suède sont à 15, la France est 12, soit la moyenne européenne, l’Allemagne et
l’Italie sont 10. Ces chiffres montrent bien toutes les difficultés de la
transformation numérique en cours.
[1]
- Le GDS d’Amadeus (Global Distribution System) peut traiter en pointe 19.000
transactions par seconde. Il repose sur environ 10.000 serveurs.
[2]
- Sabre a été le premier système de réservation. Il a été créé en 1962 par
American Airlines. Il gère la réservation de la SNCF et d’Eurostar.
[3]
- WeChat est un site chinois appartenant à Tencent comme la messagerie QQ ou le
gestionnaire de blog Qzone. WeChat a 800 millions d’utilisateurs contre 900
millions pour QQ et 650 millions pour Qzone.
[4]
- Google traite en moyenne 3,3 milliards de requêtes par jour.
[5] - HDFS : Hadoop Distributed
File System. Voir Hadoop sur Wikipedia.
Ce système permet de fractionner les grandes bases de données en blocs importants
et les distribuer sur un certain nombre de serveurs organisés pour former un
cluster de taille illimitée. Les traitements des données stockées sur un
serveur se font sur ce même serveur ce qui permet de traiter l'ensemble des
données plus rapidement. Ces systèmes de fichiers parallèles où les données sont
directement traitées sur le serveur les stockent et dont l’ensemble des
serveurs sont reliés par un réseau de grande capacité constituent des systèmes
d’une puissance et d’une rapidité sans comparaison possible. Cerise sur le
gateau : chaque serveur peut être doublé par un serveur de secours dont
les données sont simultanément mises à jour. En cas de panne d’un serveur le
système bascule automatiquement sur le serveur de sauvegarde.
[6]
- Le BPJ est le parti du premier ministre indien Narendra Modi. Il déclare
avoir 110 millions d’adhérents.
1 commentaire:
L’intégration des anciens et nouveaux « systèmes », en particulier les couches dites « legacy » et l’internet des objets, nécessitent de bien nommer les choses car « l’avenir des systèmes d’information dans un univers numérique » en dépend. J’aime rappeler la recommandation d’Albert Camus qui dit : « Mal nommer un objet, c'est ajouter au malheur de ce monde ».
L’expression « système » dans « système d’information » (S.I.) est une source de confusion car il s’agit avant tout de « Processus organisationnels basés sur l’information » (cf. A. de Oliveira 2010), c’est-à-dire un développement temporal de phénomènes marquant chacun une étape. Il n’y a donc pas des “anciens” et des “nouveaux”, mais des “états” successifs d’applications datées, ce qui change complétement la manière d’aborder les hypothèses de convergence des éléments à l’heure où l’interopérabilité s’impose face à ces disruptions. C’est en effet l’Ecosystème planétaire dominé par les GAFAMA qui est devenu un « Système », certes ouvert et en réseau. L’interopérabilité de ces processus permet au « langage organisationnel » de devenir « un outil de communication dans les organisations » (J.L. Peaucelle, 1981).
Concernant “l’avenir numérique”, l’interopérabilité des systèmes fait ses avancées mais l’internet des objets et les innovations récentes sont encore considérées par 47% des dirigeants comme des “effets de mode”, en particulier dans les entreprises de petite taille …. Or, le « Système »planétaire dont il est ici question, tire profit de l’information devenue « un langage de représentation des faits et des émotions partagés permettant à l’organisation de communiquer avec son environnement interne et externe ». Les algorithmes triomphent de même que la maîtrise de la géolocalisation et la mobilité. La fin de l’unicité lieu temps l’espace change les règles de l’efficacité au travail. L’intelligence artificielle se propage.
J’en parlerai plus en détail en novembre prochain dans le cadre de mon intervention au sein du Club sur « la gouvernance par les algorithmes ». Gérard Balantzian 5 mars 2017
Enregistrer un commentaire