Statistiques : la fin des mesures moyennes et l’avènement de l’individualité

posted May 25, 2013, 4:26 AM by Nicolas Glady   [ updated Jun 2, 2013, 1:18 AM ]

Nous vivons dans un monde où les statistiques prennent une part de plus en plus importante. Des études de marchés aux sondages d’opinions, ces analyses sont partout. Beaucoup critiquées par le grand public et même par certains experts, les statistiques pourraient bien voir leur nature se transformer du fait de l’avènement du Big Data.

Les statistiques : une emprise de plus en plus grande sur notre vie

Les statistiques sont partout : dans les médias pour les sondages d’opinion, au sein des entreprises pour les études de marchés, et même dans notre vie de tous les jours comme quand on veut par exemple acheter une assurance ou lorsqu’il s’agit de choisir l’école de notre enfant… Nous sommes intéressés par les moyennes, les tendances, et ce qu’elles nous disent sur nos chances par rapport à l’avenir. Toutefois, ces statistiques font très souvent l’objet de critiques, et celles-ci sont bien souvent justifiées.

Mesure moyenne : bien souvent un leurre

Le problème de base est que les mesures statistiques peuvent souvent donner une impression fausse de la réalité, et donc amener à des conclusions erronées. Un exemple bien connu est celui des salaires. Le salaire moyen en France en 2012 était de 2410 euros. Alors que la majorité des salariés gagnent en fait beaucoup moins ! Le salaire médian (qui correspond lui au seuil des 50%) tourne en effet autour des 1700 euros. Sans parler du fait que bien souvent 10% des personnes les plus riches possèdent environ 80% des richesses, les distributions étant en effet très peu équilibrées… Et dans bien des cas, les groupes comparés ne sont en fait même pas comparables (pour reprendre l’exemple des salaires, si on parle de revenu moyen, on doit mettre dans le même sac les chômeurs, les rentiers, les salariés du privé, du secteur public, et tous les cas particuliers...) Dans ces conditions que veut encore dire une moyenne ou même une tendance ?

En entreprise, la situation est similaire. Combien de fois n’a-t-on pas reproché à une analyse de ne pas prendre en compte la complexité d’un problème ? Ce qui rendra peu crédibles les recommandations émises et amènera les gens « du terrain » à ne pas suivre ce qui leur semble imposé par une hiérarchie déconnectée et peu réaliste. Pour prendre un exemple précis, et qui pose souvent problème, bien souvent les vendeurs n’acceptent pas de suivre les recommandations émises par le département Marketing prétextant (à raison) que leur client est un individu particulier et que des analyses « par segments »  ne sont donc pas pertinentes.

Prendre en compte la diversité : vers l’individualisation de la mesure

C’est donc pourquoi il est de plus en plus important de prendre en compte la diversité des cas qui se présentent lors d’une étude. L’idéal serait qu’à chaque comportement individuel corresponde une étude particulière qui permettrait de capturer les spécificités du cas observé. 

Auparavant, ce qui rendait ce genre d’approche difficile était que les données permettant de faire ce genre d’analyse au niveau individuel n’existaient pas (ou pour un très petit nombre d’individus) et que la complexité informatique pouvait alors exploser. Par exemple, au début de l’informatisation de ses systèmes, jamais une banque (ayant parfois plusieurs millions de clients) n’aurait pu gérer une telle complexité.

Les nouvelles méthodes d’analyse : modèles Hiérarchiques Bayesiens

Cependant, depuis les années 80 et 90, les choses ont bien changées. Le Big Data permet aux entreprises d’avoir une quantité gigantesque d’information sur leurs clients. Et les ordinateurs sont devenus tellement puissants que n’importe quel adolescent a dans sa poche une puissance de calcul supérieure à ce dont disposait l’équipage du Apollo 11 pour aller sur la Lune. Cette nouvelle réalité permet aux analystes d’utiliser ces données et d’appliquer des techniques de calcul avancées pour appréhender la complexité du réel.

Par exemple, les modèles Hiérarchiques Bayesiens permettent de mesurer des effets individuels d’une manière fiable, tenant compte à la fois du comportement unique d’un individu et des similarités avec le groupe de personnes qui lui ressemblent. Par exemple, grâce à ces modèles, il est possible de prédire le comportement d’un client pour lequel on ne dispose que de peu de donnée, grâce à l’information dont on dispose à son sujet, mais aussi en tenant compte de la manière dont les clients similaires, et pour lesquels on dispose de plus d’information, se sont comportés par le passés. Il en résulte un « modèle » différent pour chaque individu, mais qui a pour base des déterminismes communs. En fait, ces méthodes permettent enfin aux statistiques de pondérer d’une manière robuste notre « déterminisme social » par nos actes uniques qui déterminent notre individualité. Outre leur caractère plus réaliste, qui facilite l’acceptation par les différentes parties prenantes, ces techniques sont aussi plus fiables, et permettent en conséquence d’améliorer l’efficacité des campagnes marketing.

Les statistiques ne peuvent pas tout prédire, et tant mieux !

Est-ce que l’on risque d’aboutir à un monde où les statistiques seraient capables de d’anticiper le moindre de nos gestes ? Evidement que non ! Nous serons toujours des êtres humains pourvus de libre arbitre, et il est illusoire de croire au déterminisme absolu, ou qu’une étude statistique pourrait prédire l’avenir avec certitude. En fait, ce que ce nouveau type de statistique pourrait justement nous apporter, c’est en effet de mesurer précisément ce terme aléatoire, cet « epsilon, » qui fait de chacun de nous est un être unique, un individu a part entière.


Cet article a été publié sur Le Cercle des Echos le 26/05/2013.

Comments