Lors des élections américaines en 2012, affirmer que le Président Obama a défait son adversaire, M. Romney, grâce à l'aide du Big Data est maintenant une évidence. Alors que l'équipe républicaine a dû bâtir sa base de données à partir de zéro, l'équipe de marketing en média social du Président, menée par Rayid Ghani, avait une liste de 13 millions de courriel de supporters, acquise lors de la précédente élection en 2008. Si les gains de l'élection de 2008 se sont faits via les réseaux sociaux, les maîtres-mots de cette victoire technologique ont été la microsegmentation et l'analyse approfondie du Big Data afin de toucher les votants de façon directe et précise.
Alors, pourquoi parler du Klondike dans le titre? Car nous sommes face à une ruée vers l'or avec tous ses bénéfices, tous ses risques et ses miroirs aux alouettes ... pour les plus cinéphiles d'entre vous, une petite révision d'un film de Charlie Chaplin met en évidence les différents aspect d'une telle ruée. De plus, l'allusion est facile quand on compare le Big Data à une mine d'or car on peut parler de forage de données, d'extraction, d'analyse de filon d'idées ou de commentaires, etc. Telle une mine d'or, le Big Data nous promet à un bel avenir. Celui-ci peut devenir une vraie boule de cristal pour l'humanité, mais ce phénomène comporte ses limites, ses problèmes d'éthiques et de risques qui ne peuvent être ignorés. Le phénomène Big Data est aussi le grand défi informatique de cette décennie.
C'est un phénomène parce que l'ensemble des données collectées devient tellement volumineux que les outils de gestion de base de données classiques sont devenus obsolètes. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des données sont énormes, notamment pour l'analyse d'opinions politiques ou de tendances industrielles, la génomique, l'épidémiologie ou la lutte contre la criminalité ou la sécurité (i). Le volume de données engrangée esten pleine explosion. En 2010, les données numériques représentait 1.2 zettaoctets ( Zo = 10 exposant 21 octets), 2.8 Zo pour 2012 et s'élèvera à 40 Zo pour 2020. La variété des données est complexe et composée de données brutes, semi-structurées ou non-structurées, proviennent du web, de textes et même d'images. La vélocité des données représente à la fois la fréquence à laquelle elle sont générées, capturées et partagées. Les données arrivent en flux et doivent être analysées en temps réel pour répondre aux besoins de processus chrono-sensibles.
Un secteur d'activité pour lequel le Big Data est très intéressant est celui du commerce de détail. C'est un secteur qui a subit une grande mutation depuis une dizaine d'année. La concurrence est plus vive que jamais, les différents acteurs du milieu affrontent des évolutions technologiques majeures et les consommateur sont de plus en plus avertis. Afin d'être à la page, les commerçants doivent faire évoluer leurs offres, interagir avec leurs clients, leur fournir ce qu'ils recherchent en temps et lieux, ainsi que gagner en efficacité. Comme l'aptitude à gérer le Big Data peut générer de multiples retombées commerciales, le secteur du commerce de détail et de la distribution est bien placé pour profiter des enseignements et des analyses fines que celui-ci a à offrir. À condition de posséder les outils et l'infrastructures adéquates, ces entreprises peuvent savoir si un client est nouveau ou non, son parcours sur son site internet, les produits et services qui l'intéressent et les campagnes d'information auxquelles celui-ci a été exposées. Ces pratiques permettent de dynamiser la relation avec les consommateurs. D'un autre côté, il faut que les données aient été correctement collectées et analysées afin de donner l'occasion aux commerçants de cibler leur public aussi bien en ligne qu'en boutique en lui proposant des produits, services et opportunités adaptés. Par ce biais, les chances de conversation entre eux s'en voient considérablement augmentées. Enfin, un détaillant ne peut attendre les résultats de l'efficacité d'une campagne ou d'une stratégie pendant des semaines, ni même des jours. Au moyen d'une technologie accessible et économique, le Big Data permettra une analyse en temps réel, et même en interne.
Pour ce qui en est de l'exploitation des données clients, de plus en plus de décideurs de grandes entreprises et d'administrations montrent un certain intérêt pour traiter la problématique du Big Data en menant des réflexions sur le sujet. Par contre, rare sont encore ceux qui conduisent des projets sur le périmètre lié à cet enjeu. Sur les caractéristiques pertinentes relatives au Big Data, ces décideurs identifient essentiellement la gestion de nouvelles données ou de nouvelles sources de données avec un objectif analytique sous-jacent. Ceux-ci espèrent que les solutions du Big Data pourront leur apporter des bénéfices en termes d’amélioration du service client ou de gain de parts de marché. Selon eux, les principaux enjeux associés au Big Data sont de permettre d'accélérer les temps d'analyse de données, la capacité d'analyser l'ensemble de celles-ci, l'offre de nouvelles possibilités de segmentation et de ciblage, la centralisation de nouvelles sources de données, l'analyse plus pointue des tendances et la compréhension des phénomènes complexes des comportements client (ii).
Afin de profiter des opportunités du Big Data, il y a de nouvelles compétences à acquérir:
- L'appréhension d'un nouveau modèle de traitement de données, car qui dit grosse quantité
de données dit nouveaux outils à utiliser comme le fut MapReduce et ses différentes évolutions qui permettent un traitement parallèle des données dit scaling linéaire.
- La maîtrise du déploiement de Hadoop (Framework Java libre destiné à faciliter la création
d'applications distribuées et échelonnables (ou scalables). Il permet aux applications de
travailler avec des milliers de noeuds et des pétaoctets de données, ou le choix d'une
solution Cloud.
- La familiarisation avec de nouvelles méthodes de modélisation de données, car le traitement
d'énormes quantités de données non-structurées exige de nouveaux algorithmes, de nouvelles infrastructures de calcul, ainsi qu'impose de repenser l'organisation des données elles-mêmes.
- La découverte de nouveaux outils d'analyse de données.
- La connaissance et la pertinence de ce que l'on cherche, grand préalable à la mise en place d'une stratégie Big Data.
Parmi les nombreux risques du Big Data, le principal pourrait être la fin de l'anonymat. En effet, récemment, un professeur d'Harvard a réussi à identifier près de 40% des participants anonymes à une étude sur l'ADN, le Personnal Genome Project (iii). Le professeur Latanya Sweeney, directrice du Data Privacy Lab, accompagnée de son assistant et de deux étudiants, ont réussi par le recoupement de diverses informations révélées par l'étude, comme des avortements, l'utilisation de drogues illégales, l'alcoolisme, la dépression, les MST et les médications, a retrouvé 1130 personnes sur 2500 participants. Ce recoupement a été fait avec les seules informations demandées aux participants de l'étude qui étaient le code postal, la date de naissance et le genre de chacun. À moins que, pour redevenir anonyme, il faille, comme Hasan Elahi (iv), tout publier sur soi! Un comble.
Une autre mauvaise bonne idée serait, comme l'avait déclaré Chris Anderson, rédacteur en chef de Wired, de penser que si l'on a assez de données, les chiffres parlent d'eux-mêmes ... Hélas, on ne pourrait pas car il faut prendre en compte que les outils spécialisés du Big Data ont leurs propres limites et restrictions, ce qui a une incidence directe sur le sens de ce qui est extrait. Un autre risque est le manque de précision de l'interprétation des données, parce qu' il peut toujours y avoir des erreurs dans les données collectées, un manque de fiabilité, à la merci de pannes ou de pertes et qui se retrouvent décuplées quand on croise de multiples jeux de données. De plus, la quantité astronomique de données n'est pas non plus un signe latent de qualité de celles-ci.
À l'air des Big Data, un risque supplémentaire serait de traiter chaque connexion comme équivalente à toutes les autres, de confondre la fréquence des contacts avec la force des relations, et de croire qu’une absence de connexion indique qu’une relation devrait être établie. Les données ne sont pas génériques. Il y a certes un intérêt à analyser des données abstraites, mais le contexte demeure crucial (v).
En terme de risques, enfin, il y a un côté éthique à mettre en avant. Même si des données sont accessibles, il n'est peut-être pas éthique de les utiliser, comme nous prouve le stupéfiant problème qu'a eu Target, il y a quelques années. Le profilage marketing selon Target est redoutable. Aux États-Unis, il a provoqué une situation inédite et plutôt inquiétante. Un père de famille a appris que sa fille, encore aux études, était enceinte. Ce qui lui a mis la puce à l’oreille? Il recevait à domicile des coupons promotionnels pour des berceaux et autres accessoires pour bébés, adressés au nom de l’adolescente. Le détaillant avait deviné la grossesse d’après les achats de la future maman! (vi)
En conclusion, on anticipe pour ces prochaines années une importante pénurie de compétences dans
les domaines relevant du Big Data et, plus généralement, dans le secteur de l’analyse des données.
Face à cette situation, les entreprises auront à choisir parmi différentes stratégies:
- former des compétences Big Data en interne en recourant à des organismes de formation spécialisés.
- créer des partenariats stratégiques avec des entreprises spécialisées.
- acquérir, vraisemblablement au prix fort, une startup spécialisée dans l’analyse des données.
- louer des services « Big Data » en mode SaaS (vii) auprès de fournisseurs tiers comme les réseaux sociaux publics dans la mesure où ceux-ci seront disposés à monnayer les données dont ils disposent. On peut imaginer par exemple l’intégration de fonctionnalités Big Data dans des applications métiers au moyen d’API analytiques spécialisées mises à disposition par ces fournisseurs.
L'équipe de Zendatamarketing
Références
i http://fr.wikipedia.org/wiki/Big_data
ii http://blog.markess.fr/2013/03/infographie-expl...g-data.html
iii http://www.forbes.com/sites/adamtanner/2013/04/...-dna-study/
iv http://www.internetactu.net/2011/02/18/peut-on-...out-de-soi/
v http://bouledecristal-montreal.com/2012/04/big-...et-limites/
vi http://www.protegez-vous.ca/affaires-et-societe...keting.html
vii http://www.journaldunet.com/solutions/intranet-...ranet/saas/