Ces deux dernières années, il s’est créé autant de données que durant tout le siècle. Internet a grossi de 1,2 zettaoctet de données rien qu’en 2011, soit une capacité équivalente à 1,2 milliard de disques durs de 1 téraoctet et plus de contenu que l’ensemble des livres publiés dans le monde entier il y a 10 ans. Par extrapolation, d’ici à 2020, l’univers numérique sera ainsi 44 fois plus important qu’en 2009.

Photos, vidéos, signaux GPS, terminaux mobiles, téléviseurs connectés, lecteurs RFID, connexions sur les réseaux sociaux... chaque jour, à travers le monde, sont générés quelque 2,5 trillions d'octets de données. Une quantité astronomique, qui connaît une croissance exponentielle depuis quelques années. La production de données par les utilisateurs entraîne, selon les estimations, un doublement du volume des données tous les 12 à 18 mois dans le monde. Issues de sources multiples, ces données en deviennent ingérables avec les outils traditionnels de gestion de base de données. C’est le phénomène du Big Data.

Le Big Data et l’analyse des données deviennent des enjeux majeurs dans la transformation numérique des entreprises. Mais sont-elles prêtes? Car celui-ci est aujourd’hui une réalité accélérée par la révolution numérique et la mobilité. Entreprises et organisations sont conscientes de l’existence de ce gisement de données qui représente un indéniable levier de croissance et de compétitivité dans un contexte où elles n’ont pas d’autre choix que de se transformer. Dès lors se pose la question de l’exploitation de cette masse d’informations en évitant l’écueil de l'obésité d'informations. La plupart des entreprises ont une vue positive de l'utilisation du Big Data, car elles considèrent que soit il leur permettrait d'améliorer leur processus de planification et de prévisions, soit d'améliorer la connaissance et la maîtrise de leur business. Hélas, une faible proportion des organisations de par le monde sont réellement touchées par les difficultés de la gestion de différents types de données, structurées ou non structurées et trouvent que l'analyse du Big Data est très importante pour leur activité.

À l'heure actuelle, le décalage entre le potentiel que le Big Data représente et la faible prise en compte des problématiques liées à celui-ci par les sociétés s'explique par le fait que les conditions préliminaires à l'exploitation de cet énorme flux de données ne sont pas encore remplies.

En l'absence d’outils leur permettant d’extraire les renseignements utiles de cet océan d’informations, les entreprises risquent bien de se noyer. Malgré le potentiel offert par le Big Data, il reste difficile pour beaucoup d’entre elles de se doter des compétences et des outils pour exploiter pleinement leurs données. L'étude Baromètre de l'expérience client réalisée par intégrale mbd et zendatamarketing, met en lumière cette problématique à l'échelle du Québec. Pour optimiser l’exploitation du Big Data, il faut disposer des bonnes assises en terme de Business Intelligence, qui constituent en quelque sorte les fondations sur lesquelles va s’ériger l’exploitation du Big Data. Plusieurs obstacles ne permettent pas aux entreprises de pouvoir utiliser les données comme moteur stratégique de compétitivité comme un niveau insuffisant de qualité des données, les difficultés liées à leur traitement en temps réel, leur volume croissant, l'hétérogénéité de celles-ci, l'absence de stratégie formalisée et d'une gouvernance dédiée à la Business Intelligence à cause de leurs systèmes trop complexes. De plus, cette stratégie indispensable est d’autant plus difficile à mettre en place que les compétences dédiées à la gestion des données se font rares sur le marché ; trop rares pour les entreprises qui mettent en cause une pénurie de compétences en Business Intelligence, et particulièrement de Data Scientists qui constitue un frein.

D'ailleurs pour la petite histoire, le terme Data Scientist a été créé par un ancien de Facebook et un autre de LinkedIn. Le Data Scientist est un hybride entre un informaticien et un statisticien. Sa mission est d’introduire le Big Data au sein de l’entreprise, d’évangéliser. C’est un profil très complet qui doit allier intelligence émotionnelle, intuition et ouverture exacerbée face à la donnée. Cette « ouverture exacerbée face à la donnée » le distingue du Data Miner ou du Data Analyst que nous connaissons. Car, au-delà de faire parler la masse de données pour en dégager les informations les plus pertinentes pour l’entreprise, un des principaux enjeux pour le Data Scientist est de travailler très en amont de l’analyse des données. Les compétences de celui-ci vont bien au-delà de l’analyse simple. Il doit être en mesure de définir la question posée, de penser les tests nécessaires à l’avancement de la réflexion et de décider de ce qui doit être comparé ou non.

Comme on le voit, le profil du Data Scientist est très complet et riche. Il doit être capable de s’assurer de la provenance de l’information, de ce qu’elle représente et de ce qu’elle peut apporter à la gouvernance de l’entreprise. De façon imagée, c’est un chercheur d’eau en plein Sahara qui fouine à l’intérieur de l’entreprise, mais aussi à l’extérieur, à la fois des données maîtrisées – issues des processus métier –, mais aussi non maîtrisées, issues des réseaux sociaux, du buzz… Ses principales compétences sont la capacité à maîtriser la partie analytique (faire parler la donnée), la structurer et la mettre en valeur (aspect visualisation des données). Et, cerise sur le sunday, il doit être capable, par rapport à une question donnée, de trouver les données qui vont permettre de répondre à cette question, même si c’est contre-intuitif.

Actuellement, très peu de personnes dans le monde peuvent prétendre à ce titre, car ce profil requiert des compétences en mathématiques pour comprendre les algorithmes, en informatique pour saisir l'utilisation des systèmes ainsi qu'en marketing pour comprendre la nature et l'utilité des informations figurants dans les bases de données. Chez nos voisins du sud, où la fonction prend de plus en plus d’ampleur, le secteur de la santé emploie beaucoup de Data Scientists. Le patient accumule en effet de plus en plus de données lors de son parcours au sein par exemple d’un établissement de santé. Pour un suivi médical pertinent et une rationalisation des coûts, ces données à la fois structurées et non structurées, en temps réel et en différé, doivent être agrégées avec efficacité.

En conclusion, le Big Data constitue un véritable levier de croissance pour les économies du monde entier, tous secteurs et toutes tailles d’entreprises confondus. Dans les années à venir, il est probable que l’exploitation du Big Data fasse la différence entre les entreprises qui innovent et celles qui stagnent, entre les entreprises rentables et les autres et, au final, soit un facteur de réussite incontournable.