Nous sommes dans un marché en pleine croissance et les entreprises voulant faire du Big Data ou plus exactement de l’analytique en temps réel et de la prédiction sur base de données structurées et non structurées sont confrontées à un Big bazar sur ce marché. Déjà, il y a un jargon à saisir avec efficacité… Imaginez des mots comme Hadoop-chose et péta-machin… on rentre dans une jungle numérique presque impénétrable. Avec une technologie qui se perfectionne et se démocratise, plutôt qu’un souci technologique ou stratégique, il se trouve qu’outre une certaine variété des offres, la difficulté de recruter des spécialistes qui puissent faire correctement rouler la machine infernale, met un frein énorme au développement du Big Data.
Selon les derniers chiffres publiés par IDC, ce secteur pourrait générer des revenus de 24 milliards de $ en 2016… rien que ça! Avec un tel pactole à se distribuer, autant vous dire qu’une guerre des talents a débuté. Alors que les directions marketing cernent bien les opportunités qu’offrent le Big Data, le social media monitoring, le social-CRM, etc. les meilleurs outils pour exploiter ces opportunités ne suffisent pas. Malgré la simplicité de certains outils, leur utilisation se complexifie et il manque les bonnes personnes pour transformer toutes les données en insights. Il faut plutôt regarder du côté de l’humain. Le challenge se trouve de ce côté. Et ces humains, petits génies de la donnée, ont un nom: les data scientists. Il faut présenter certaines dispositions techniques pour un devenir un. Il faut maîtriser MapReduce, un modèle de traitement en parallèle des données, qui permet d'analyser plus d'informations, plus vite; savoir déployer et gérer une plateforme de type Hadoop, pour implémenter ce modèle; utiliser des bases de données orientées colonnes ou documents, pour pouvoir modéliser des données non structurées.
Pour en ajouter un peu à la liste des prés requis pour devenir un bon data scientist, d’autres compétences sont nécessaires. Le Big Data n’est pas de la magie blanche (même si on entend maintenant parler de dark data qui sont des informations peu ou mal utilisées comme les logs par exemple et qui représenteraient deux tiers des données des entreprises), les analyses se basent sur l’expérience, le métier et l’intuition. Car que mettre en lumière et en exergue, quelles seront les tendances, les corrélations et comment les transformer en aide à la prise à la décision? Voici une foule de questions auxquelles le data analyst devra répondre… et plus encore: ce n’est pas le tout qu’il ait une expertise statistique et quantitative, le data scientist doit aussi maîtriser des sujets connexes à cela. Il y a un côté business: la connaissance métier et le sens business sont des éléments déterminants de son efficacité. Il doit pouvoir prendre du recul par rapport aux données pour identifier les applications concrètes et imaginer de nouveaux usages et améliorer le fonctionnement de l’entreprise. Il y a le côté technologique: ce qui manque le moins dans le Big Data, ce sont les technologies, et la programmation est souvent un préalable pour toute collecte ou transfert de données. La familiarité et la capacité à utiliser des technologies comme Hadoop, Java, Python, SQL, Hive, et Pig sont donc des éléments essentiels de la boîte à outils de celui-ci. Et enfin, il y a aussi le côté communication, leadership et gestionnaire de projet: c’est le jeu de compétences qui sépare le data scientist du «geek», qui lui permet de fédérer une équipe aux compétences diverses autour d’une vision, de mener à bien des projets avec un impact réel sur la performance de l’entreprise et de communiquer des résultats de manière claire.
Autant vous dire que de trouver de telles perles rares, de tels moutons à cinq pattes est aussi facile que de trouver une aiguille dans une meule de foin. Deux solutions s’offrent pour les entreprises concernées: la première, former des équipes multidisciplinaires combinant les différentes compétences demandées. La grande difficulté est évidemment qu’il faut casser les silos organisationnels des entreprises afin de lancer une approche transversale du Big Data par le biais du cloud computing. L’autre solution se trouve dans la formation. Il est clair que de plus en plus d’universités en Amérique du Nord comme en Europe offre des cursus universitaires orientés sur les Big Data et son application business. Mais il semblerait que les MOOCs spécialisés dans les Big Data aient le vent en poupe. En effet, la curiosité et la capacité à s’autoformer sont des caractéristiques très valorisées par les recruteurs, qui attendent du data scientist une vraie polyvalence et une prise d’initiative. Qu’est-ce qu’un MOOC me direz-vous? C’est l’acronyme de Mass Online Open Courses, des cours gratuits en ligne. Ils sont donnés dans de prestigieuses universités de par le monde. Les plus connues… Stanford, le MIT ou pour des cours en français, l’École Polytechnique de Paris.
Si vous n’avez toujours pas compris les enjeux, je vais vous faire une petite comparaison qui vous fera sourire. Vous vous rappelez d’internet en 1993? C’était le tout début et personne ne savait vers où les www allaient nous mener. Et bien, les Big Data, c’est l’internet du futur. Nous allons progressivement assimiler l’idée et comprendre le changement que ça implique pour les générations futures. Les implications sont aussi diverses que:
• Dans le secteur de la santé, où aux États-Unis, il s’est dépensé 250 milliards d’USD par an afin de lutter contre la fraude présente dans ce secteur. Il pourrait être généré 300 milliards de recette supplémentaire chaque année grâce à l’utilisation des Big Data pour augmenter l’efficacité et la qualité de cette lutte. Et du côté sanitaire, de notre santé à nous, quels seraient les avantages? En 2003, lorsque le cancer de Steve Jobs fut diagnostiqué, il fallait 100 000$ pour séquencer son ADN. 10 ans plus tard, le procédé coûte 4000$ et il est dit qu’il ne sera plus que de 40$ d’ici 5 ans. Ce qui veut dire que les docteurs seront capables de prescrire un traitement individuel et efficace à partir de tests ADN (désormais abordables).
• Tout le monde a entendu parler de ce courtier malhonnête, travaillant dans un établissement de services financiers au niveau mondial, qui a engendré des pertes de l’ordre de 2 milliards d’USD. Les établissements financiers disposent désormais d’une grande quantité de données leur permettant d’éviter ce genre de fraude, tant qu’externe qu’interne.
• En Europe, il est établi que les gouvernements puissent faire des économies de l’ordre de 100 milliards d’euros uniquement en amélioration de l’efficacité opérationnelle ou aussi ,avec un recours à des initiatives Big Data afin de faire baisser la fraude et les erreurs, et ainsi stimuler la collecte de recettes fiscales.
• Les principaux détaillants occidentaux perdent 93 milliards d’USD chaque année simplement parce qu’ils n’ont pas les bons produits en stock pour répondre à la demande des consommateurs.
• Et enfin, six milliards d’abonnés au sein du secteur des télécommunications (chiffre qui affiche une croissance à 2 chiffres chaque année) exigent des offres personnalisées correspondant à leur style de vie.
Donc, il est certain qu’en 1993, d'aucuns n’auraient pu prévoir l’avenir d’internet. Il en va de même pour les Big Data. Il y a là un potentiel énorme, mais il est encore hasardeux de prévoir son évolution. Presque tout le monde semble d’accord pour dire que la société du futur sera ultraperformante et technologiquement avancée. Alors, à quand un monde où un système J.A.R.V.I.S. ou H.A.L. serait présent et qui connaîtrait chaque partie de notre être et donc, serait capable de nous fournir chaque chose ou information en conséquence? L’avenir nous le dira et la réponse à cette question se rapproche de jour en jour.