vendredi 14 novembre 2014

Big data : la révolution

« Les big data, littéralement les ‘grosses données’, ou mégadonnées, parfois appelées données massives désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. » (Wikipédia, 2014). Voilà la définition du big data, tirée de Wikipédia dont le terme a été utilisé pour la première fois en août 1999 dans un article publié dans le Communications of the ACM par Steve Bryson, David Kenwright, Michael Cox, David Ellsworth et Robert Haimes. C’est seulement au cours des dernières années que le big data a pris de l’ampleur dans notre quotidien et que son utilisation a connu une expansion dans plusieurs aspects de la société.
Le big data est un concept impressionnant; on estime qu’il y a actuellement autant d’information digitale que d’étoiles dans le ciel, et 70 % de cette information provient des citoyens. En 2012 seulement, la collection des informations a augmenté de 400 %.
C’est en prenant connaissance, lors du cours Nouveaux médias et de lectures intéressantes sur le big data, que je me suis aperçue que j’étais un peu aveugle à ce concept qui prend de plus en plus d’espace dans notre société. J’ai choisi de lire le livre de Mayer-Schönberger et Cukier intitulé Big Data : A Revolution That Will Transform How We Live, Work, And Think. Le big data, comme le mentionne le titre, a révolutionné nos façons de faire et d'analyser l'information dans de nombreux domaines, dont le marketing, la science et les communications. Ce livre est vraiment bien écrit; il est rempli d’exemples, d’anecdotes et de détails. Trois concepts du big data discutés dans le livre m’ont particulièrement touchée lors de ma lecture, soit l’utilisation quotidienne et son impact, la valeur cachée du big data et les risques associés à son utilisation.
  
Une compréhension générale du big data
Dès les premières pages du livre, Mayer-Schönberger et Cukier se positionnent sur ce qu’est le big data
« There is no rigorous definition of big data. Initially the idea was that the volume of information had grown so large that the quantity being examined no longer fit into the memory that computers use for processing, so engineers needed to revamp the tools they used for analyzing it all...One way to think about the issue today -- and the way we do in the book -- is this: big data refers to things one can do at a large scale that cannot be done at a smaller one, to extract new insights or create new forms of value, in ways that change markets, organizations, the relationship between citizens and governments, and more. » (Mayer-Schönberger et Cukier, 2013, p. 6). 
Tout au long du livre, Mayer-Schönberger et Cukier essaient de déterminer la définition du big data en présentant un historique et de nombreuses utilisations qui ont encouragé le développement et l'utilisation diverse du big data dans notre quotidien. Les trois premiers chapitres couvrent trois éléments importants du big data, le maintenant (now), l’augmentation d’information (more) et le désordre (messy). Premièrement, le « maintenant » démontre l’importance de traiter rapidement de l’information pour rester compétitif et à l’affût des tendances. Ce n’est plus un choix ou un avantage, c’est un atout pour réussir. Deuxièmement, le montant d’information stocké, couvrant tous les sujets et sphères imaginables, est en constante expansion. Il y a plus d’information à entreposer, à classifier et à analyser. Troisièmement, en raison de cette quantité surabondante d’information à analyser, il faut s’attendre à un certain niveau d’inexactitude. La qualité de contrôle est différente car il est plus difficile de mettre en place des procédures claires lors de l’analyse de big data.
Ces trois concepts poussent la société à changer son idéologie puisque les nouvelles méthodes d’analyse changent la façon de comprendre et d’organiser notre information. Les préoccupations de qualité sont moins importantes avec une quantité d’information supérieure; les possibilités et les limites changent. Tel que mentionné par Mayer-Schönberger et Cukier, l’analyse de plus d’information est plus importante puisque nous nous rapprochons de la réalité : « Big data, with its emphasis on comprehensive datasets and messiness, helps us get closer to reality than did our dependance on small data and accuracy. » (Mayer-Schönberger et Cukier, 2014, p. 48).
Plusieurs exemples viennent appuyer les explications de ces trois concepts. Observons le système de traduction de Google, qui a été des plus innovateurs en utilisant tout le contenu du Web, bon et mauvais, de qualité ou de source réfutable. Ceci lui a permis d’avoir accès à une plus grande base de données pour son système. Ce fut un processus de ‘désordre’, mais avec la quantité d’information, le résultat a été la création de la plus grande banque de mots sur le Web.

La valeur cachée de l'information
« Data's true value is like an iceberg floating in the ocean. Only a tiny part of it is visible at first sight, while much of it is hidden beneath the surface. » (Mayer-Schönberger et Cukier, 2013, p. 103). Cette citation  de Mayer-Schönberger et Cukier définit très bien l’importance de bien choisir, comprendre, analyser et présenter le big data. Ceux qui savent bien faire l’analyse pour atteindre leurs objectifs peuvent grandement en tirer profit. Il suffit de penser aux nombreuses entreprises qui ont utilisé le big data à leur avantage et qui ont développé des modèles d’affaires qui priorisent l’innovation. Les deux plus grands joueurs détaillés dans le livre de Mayer-Shönberger et Cukier sont EBay et Google car ils ont su, comparativement à leurs compétiteurs, choisir et utiliser le big data pour stimuler leur croissance.
Le livre met l’accent sur l’importance de la réutilisation du big data, qui est presque aussi importante que l’utilisation des qualités primaires, c’est-à-dire que de savoir utiliser l'information des autres est un bénéfice. Un exemple présenté est celui d’Amazon, qui avait signé une entente  avec AOL pour connaitre les habitudes de consommation des visiteurs de ce dernier. En ayant cette information, Amazon pouvait ainsi proposer des achats à ces visiteurs; AOL ne croyait pas qu’Amazon pouvait en bénéficier ainsi. Amazon est toujours en bonne forme, tandis que AOL a perdu beaucoup de vapeur.
Finalement, un autre concept expliqué est que l’information peut perdre sa valeur. Il est important de conserver de l'information, mais il faut la renouveler continuellement pour bien représenter le quotidien. Toutes les informations ont une durée de vie différente, certaines plus longue que d’autres. Google est encore mentionné ici puisque dans le cas de son dictionnaire, l’information n’expire jamais.  Grâce au cumul d’information vaste et continue, Google offre le meilleur outil de révision et de traduction. Il offre aussi de nombreux programmes comme GMail, Google Docs, Google Plus, etc.
Le chapitre termine en soulignant l’importance que le big data peut avoir afin d’ouvrir les barrières à l’information. Barack Obama est nommé comme un leader qui appuie l’ouverture et le partage, une idéologie qui est en pleine croissance.

Les risques du big data
Selon les auteurs, les risques du big data pour la communauté n’est pas le cumul d’information primaire, mais bien de l’information secondaire. Avec le big data, les trois principes pour assurer la vie privée des gens dans la collecte primaire de l’information, soit le consentement, la possitilité de retrait (opt out) et l'anonymat ont perdu beaucoup de leur impact. Souvent, au moment de la cueillette d’information primaire, l’utilisation secondaire des données n’est pas connue, donc les populations ne sont pas informées.
Les auteurs parlent longuement de la collecte d’information des gouvernements sur ses citoyens. Avec le big data, il est beaucoup plus facile de surveiller et de s’infiltrer dans certaines situations. Il peut y avoir des avantages, comme la prévention d’un crime ou d’une épidémie, des banquiers peuvent mieux analyser les fluctuations, etc. Les gouvernements assurent une surveillance beaucoup plus pointue sur ses citoyens, ce qui peut être un avantage pour la société, mais les auteurs offrent une piste de réflexion par rapport aux risques: « What turns it into a weapon of dehumanization is a shortcoming, not of big data itself, but of the ways we use its predictions. » (Mayer-Schönberger et Cukier, 2013, p. 162).

Google : Chef de fil en innovation
Le livre faisant souvent référence à Google comme étant un des initiateurs du big data, la compagnie qui maîtrise le mieux l'analyse et l'utilisation de l’information pour ses propres gains, j'ai voulu en apprendre davantage sur cette compagnie et son fonctionnement.
Google est probablement la compagnie qui traite la plus grande quantité d'information de par ses multiples filiales et initiatives; nous pouvons penser à Google Maps, Google+ et Google Books pour en nommer que quelques-unes. Certains disent même que Google précède la vague technologique de plusieurs années de par son innovation. Pour rester chef de file, Google a compris qu'il faut créer une ouverture et un partage de l'information; bref il faut de la compétition pour être considéré le meilleur. Pour se créer une compétition et ainsi rester le meilleur, Google a mis à la disposition des compagnies un service d'analyse de big data sur le nuage web, BigQuery, qui initialement était offert gratuitement.
Dans le livre What Would Google Do?, l’idéologie Google est résumée en quelques mots : « At Google, we are God and our data is our Bible. It’s through data generated by our activity that Google listens to what we want, prefer, and need.» (Jarvis, 2008, p. 87). Dans cet aspect, Google est toujours dix pas devant ses compétiteurs. Une simple recherche sur Twitter avec les mots clics #google et #bigdata permet de ressortir des centaines de nouvelles, d’articles et de contenu sur les avancées technologiques de Google en lien avec le big data.

Conclusion
En somme, le big data nous permet de mieux comprendre et d'analyser notre environnement. Notre façon de faire change et le big data deviendra partie intégrale de notre quotidien, tant pour faire des prédictions sur la condition des routes, les résultats d’élection, le moment le plus avantageux pour un achat et les méthodes d’éviter le prochain rhume.
Les possibilités du big data sont infinies et ce, depuis 1999, où le terme a pris naissance et dont la définition est en constante évolution. Certes, ceux qui apprennent à bien utiliser le big data seront les grand joueurs de demain. Dans mes recherches et mes lectures, le big data entoure souvent des compagnies, une révolution technologique au profit de grandes entreprises. Par contre, quel est l’impact du big data concrètement sur mon quotidien? J’ai encore plein de questions sur l’utilisation de l’information recueillie grâce au big data.
Grâce à  l’information recueillie à mon sujet, est-ce que n’importe qui peut connaître mes déplacements, mes goûts, mes préférences? Comment ces données seront-elles utilisées au cours des prochaines années? Y aura-t-il des retombées positives ou négatives sur ma personne?

Le buzz autour du big data est en constante croissance! Cette infographie
tiré du site de IBM présente l'ampleur du big data aujourd'hui. Repérée
à http://www.ibmbigdatahub.com/infographic/tuning-big-data-buzz-gets-louder)


 _________
Références :

DOHERTY, Phil. (2014) 20 Shocking Facts and Figures About “Big Data”, eSpatial, Repéré à  https://www.espatial.com/articles/20-shocking-facts-and-figures-about-big-data.

PRESS, Gil,  A Very Short History Of Big Data, Forbes Magazine, Repéré à http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/
 Wikipedia, Repéré à http://fr.wikipedia.org/wiki/Big_data, consulté le 6 novembre 2014.

JARVIS, Jeff, What Would Google Do?, HarperCollins, 2009.
MAYER-SCHONBERGER, Viktor and CUKIER, Kenneth, Big Data: A Revolution That Will Transform How We Live, Work, and Think, Eamon Dolan/Houghton Mifflin, 2013.