Supposons que vous vouliez parier sur un événement futur pour lequel plusieurs issues sont possibles. On peut par exemple penser à un match de foot (disons, Russie contre Nouvelle-Zélande le 17 juin prochain) ou au second tour de l'élection présidentielle. Sur les sites de paris en ligne, chaque option se voit attribuer un coefficient. On peut alors miser sur l'une des issues, et en cas de victoire, on récupère sa mise multipliée par le coefficient. En cas d'échec, on perd sa mise. Pour les exemples cités ci-dessus, voici un choix possible d'issues envisagées, accompagnées de leur coefficient au moment où j'écris (le 4 mai 2017 à 19 heures) :

  1. Victoire de la Russie (1,30)
  2. Victoire de la NZ (8,00)
  3. Match nul (4,33)

Ainsi, si je mise 10 euros sur la victoire de la Russie, je récupérerai 13 euros si j'ai raison, et je perdrai le tout si j'ai tort. Dans le cas du second tour de la présidentielle, il n'y a a priori que deux options :

  1. Victoire de Marine Le Pen (5,00)
  2. Victoire d'Emmanuel Macron (1,14)

On peut formaliser un peu tout cela : disons que les issues possibles sont numérotées par un entier $i$ allant de $1$ à $n$, le nombre d'issues. Je veux m'autoriser à miser sur plusieurs issues possibles. Appelons $x_i$ la somme misée sur l'issue $i$, et $c_i$ le coefficient associé. La somme que je mise est donc $\sum x_i$, et ce que je gagne sera $c_I x_I$, où $I$ désigne l'issue qui sera effectivement réalisée. Évidemment, on ne sait pas à l'avance quelle sera cette issue gagnante, mais on peut néanmoins estimer ses gains en calculant l'espérance de gain. Pour cela, il faut attribuer des probabilités $p_i$ à chaque issue, et nous ferons ici l'hypothèse que $\sum p_i = 1$, c'est-à-dire que toutes les éventualités sont couvertes, et qu'elles sont exclusives (c'est le cas des exemples ci-dessus, sauf événement très improbable). L'espérance de gain est alors $$E = \sum x_i (c_i p_i -1) \, . $$Il est intéressant de s'arrêter quelques minutes sur cette simple formule. Si les coefficients sont choisis de telle sorte que $$c_i = \frac{1}{p_i} \, , $$alors l'espérance est nulle, $E=0$. Définissons donc $\delta_i = c_i - \frac{1}{p_i}$ l'écart entre ces deux quantités. Notons que l'espérance de gain s'écrit maintenant $$E = \sum x_i p_i \delta_i  \, , \textrm{      avec      }  \delta_i = c_i - \frac{1}{p_i} \, . $$

Dans la peau du casino

Mettons-nous maintenant dans la peau d'un site proposant des paris en ligne. Notre but est de gagner de l'argent, quoi que fasse le joueur, et une façon très simple d'atteindre ce but est de choisir tous les $\delta_i $ légèrement négatifs. Ceci garantit que $E<0$, et le fait que $|\delta_i |$ reste petit permet de laisser de l'espoir au joueur. On voit alors que tout réside dans une bonne détermination des probabilités $p_i$, et c'est là une tâche plus difficile qu'il n'y paraît au premier abord. La définition même de ces probabilités est délicate : comment attribuer des probabilités à un événement qui ne se produira qu'une fois ?[1. En fait, ce problème est vraiment plus difficile qu'il n'y paraît, même de façon conceptuelle, j'y reviendrai sans doute. ]

La seule chose que nous pouvons tenir pour certaine est la contrainte $\sum p_i = 1$. Comme nous voulons réaliser $\delta_i <0$, les $c_i$ doivent satisfaire $$\frac{1}{\sum \frac{1}{c_i}}< 1 \, , $$autrement dit la moyenne harmonique des coefficients doit être inférieure au nombre d'issues. Pour nos deux exemples, on trouve pour le match de foot $\frac{1}{\sum \frac{1}{c_i}} = 0,89$, et pour l'élection $\frac{1}{\sum \frac{1}{c_i}} = 0,93$. Les casinos ne sont pas fous.

Mais si cette condition est nécessaire pour que l'organisateur du pari soit bénéficiaire, elle n'est absolument pas suffisante ! La condition suffisante, nous l'avons vu, est que pour tout $i$ on ait $\delta_i <0$. Et comme on souhaite attirer des pigeons clients, on joue avec le feu, car on ne souhaite pas prendre trop de marge, de peur de les faire fuir à la concurrence. Il s'agit donc d'estimer ces sortes de probabilités de façon aussi précise que possible. Deux méthodes au moins s'offrent à notre institut de jeux : la première repose sur des sondages d'opinions, et la seconde sur l'analyse des comportements. Examinons-les tour à tour.

Il y a sondage et sondage

Dans la méthode du sondage, on demande à un grand nombre de gens, sélectionnés de manière convenable, leur opinion sur l'issue de l'événement. Les proportions $P_i$ de personnes penchant pour les différentes options peuvent alors donner une estimation des probabilités $p_i$. En fait, on trouve souvent un raisonnement selon lequel $P_i$ devrait fournir une bonne approximation de $p_i$, pourvu que le nombre de personnes sondées soit grand, l'échantillon représentatif, etc. J'imagine que cela repose sur une hypothèse de sagesse populaire, qui est, si l'on s'y arrête quelques secondes, hautement douteuse. On peut même très facilement imaginer plusieurs facteurs pouvant causer de grands écarts entre $P_i$ et $p_i$. En vrac, citons l'incompétence (les personnes sondées n'ont pas les capacités de donner une opinion éclairée) et le fanatisme (les supporters de l'équipe A ou du candidat X persisteront dans leur erreur contre vents et marées). Il faut donc n'accorder qu'une valeur assez faible à ce type d'enquêtes.

Par ailleurs, en cette période électorale, il est de bon ton de vitupérer contre les sondages d'opinion visant à prédire les résultats de l'élection. Ce n'est pas du tout mon propos ici, et je prétends au contraire que ces sondages ont une très grande valeur, et qu'ils doivent être utilisés pour déterminer les $p_i$. Il est capital de distinguer ces sondages des enquêtes évoquées au paragraphe précédent ! Dans les sondages d'opinion, on ne demande pas aux sondés de prédire le résultat de l'élection, mais de dire pour qui ils comptent voter. Pour souligner l'énorme différence, regardons les derniers sondages du jour concernant le second tour de la présidentielle. Selon le sondage OpinionWay et ORPI du 3 mai,

  • Le score prédit pour E. Macron est de 61%, celui pour M. Le Pen est 39%;
  • À la question "Qui, selon vous, sera élu président le 7 mai prochain", 77% répondent E. Macron et 20% M. Le Pen [1. J'imagine que les 3% restants ne se prononcent pas].

Que doit-on déduire de ces résultats ? Certes pas que la probabilité de la victoire de Macron serait de 77% (et encore moins 61%, mais je pense que personne n'est assez idiot pour avancer cette idée). Une interprétation correcte du résultat du sondage donne une probabilité largement supérieure à 99% [2. Si j'ai le courage, je donnerai ultérieurement les explications à propos de ce calcul. Notons que je ne mentionne pas ici les intervalles de confiance, tout simplement parce que je n'ai pas défini rigoureusement ce que j'appelle les $p_i$. Tout ceci est assez subtil, mais le résultat donné dans le texte suffira pour aujourd'hui. ]. Et que doit-on déduire des réponses à la seconde question ? Tout simplement que l'hypothèse de la sagesse populaire est, dans ce cas précis, une vaste blague, et que nombreux sont ceux qui ne savent pas détacher leurs souhaits de leur analyse de la réalité.

Ceci nous amène à la seconde méthode, l'analyse des comportements. Si de nombreuses personnes souhaitent parier sur une issue donnée, c'est sans doute que cette issue est relativement probable, les gens étant censés penser de façon rationnelle quand leur argent est concerné. Et pourtant, les biais évoqués au paragraphe précédent pèsent certainement encore très fort dans la balance, et tout porte à croire que les comportements des parieurs sont tout sauf rationnels, du moins dans certaines circonstances. J'en veux pour preuve la valeur anormalement haute du coefficient $c_i$ attribué à la victoire de monsieur Macron, et qui conduit à un $$\delta_{\textrm{Macron}} = 1.14 - \frac{1}{0,999} = 0,14 > 0 \, . $$Non seulement le résultat n'est pas négatif, mais il est relativement élevé ! J'avoue ne pas bien comprendre comment les sites de paris en ligne ont pu surestimer de façon aussi flagrante le coefficient $c_\textrm{Macron}$, et j'imagine que les quelques effets mentionnés ci-dessus sont en grande partie responsables. Toujours est-il que cette erreur d'appréciation ouvre des opportunités inespérées de retourner les méthodes des casinos en votre faveur... Nous en reparlerons.