Le lien entre probabilité, entropie et information.
La probabilité est une correspondance entre des nombres (entre 0 et 1) et des événements répétables, en respectant certaines règles. L'interprétation standard d'une probabilité est que c'est la valeur vers laquelle tend le rapport entre le nombre de fois que l'événement en question est réalisé, et le nombre d'essais que l'on a fait, quand on a fait un très grand nombre d'essais. C'est ainsi que la probabilité ne prend qu'un sens dans le monde réel que quand on parle d'un événement qui peut se répéter et que les conditions dans lesquels l'événement se réalise, ou non, sont bien définis.
Ainsi, jeter un dé est une chose répétable et bien définie, et l'événement "j'ai jeté un nombre plus petit que 3" est par conséquence un événement pour lequel nous pouvons raisonnablement définir une probabilité. Par contre, la probabilité que vous êtes nés ne peut pas simplement être donné une probabilité. D'abord parce que cet événement n'est pas vraiment répétable. Mais même dans le cas où nous ferions l'hypothèse imaginaire que ce soit un événement répétable, nous ne pouvons pas définir clairement les conditions dans lesquelles un essai résulte en un succès, où non.
Cela dit, la probabilité a une autre signification implicite, qui n'est pas apparente dans la propriété de la convergence d'un nombre de succès sur un nombre d'essais. Normalement nous ne parlons de probabilité que quand il y a une ignorance du résultat précis avant l'essai. Nous pourrions parler de la probabilité d'avoir un nombre se terminant en 3 ou 4 quand nous comptons à partir de 0, et selon la propriété de la convergence du rapport de succès sur le nombre d'essais, cette probabilité est égale à 0.2. Mais nous aurions du mal à considérer que quand nous avons compté jusqu'à 327, la probabilité pour que le prochain nombre se termine en 3 ou 4, soit 0.2. Effectivement, nous connaissons ce prochain nombre. C'est 328. Ça ne se termine ni en 3 ni en 4. Bien que tous les concepts de la théorie mathématique des probabilités soient respectés, le fait de "savoir à l'avance" ce que donnerait l'essai "compte le prochain nombre" nous fait bizarre d'utiliser des probabilités pour quelque chose qui soit connu à l'avance.
Au lieu de considérer qu'une probabilité ne décrive que le "taux moyen de succès si nous répétons les essais beaucoup", nous voulons en fait parler de notre ignorance du prochain résultat. Mais l'ignorance ne dépend pas seulement de l'événement en question, mais aussi de l'entité qui ignore.
Ignorance d'un résultat est quantifié par une entropie. Entropie est un concept originaire de la thermodynamique, et en première vue n'a rien à voir avec information ou probabilité. Mais il s'est avéré que l'entropie thermodynamique et l'entropie d'ignorance sont très proches. En fait, à un niveau suffisamment abstrait, c'est le même concept dans les deux cas: l'entropie thermodynamique est l'ignorance de l'était microscopique du système physique.
L'entropie est donc une mesure de l'ignorance d'un résultat précis d'un essai.
L'information, finalement, est la réduction d'entropie, la réduction de l'ignorance. Si à la fin, je connais le résultat d'un essai, il n'y a plus ignorance, et donc l'entropie est réduite à zero. La quantité d'information dans l'apprentissage du résultat est donc exactement égal à l'entropie avant que le résultat soit connu.
Mathématiques de base de l'entropie et de l'information.
Nous sommes habitués d'avoir l'information en bits. Un bit est un morceau élémentaire d'information ou d'ignorance. C'est l'information ou l'ignorance lié au jet d'une pièce de monnaie. Le résultat peut être pile ou face et la probabilité de chaque résultat est 0.5. Cette dernière affirmation veut dire que si nous jetons la pièce un grand nombre de fois, à peu près la moité des essais aura donné pile, et l'autre moitié, face. Nous obtiendrions la même chose si nous retournions chaque fois la pièce, mais cela ne correspond pas à ce que nous avons intuitivement en tête quand nous parlons de probabilité. Nous parlons de "jeter" la pièce pour indiquer l'impossibilité de savoir à l'avance le résultat de l'essai. Nous voulons qu'il n'y ait pas de moyen de savoir à l'avance le résultat de l'essai.
L'ignorance du résultat d'un seul jet de pièce de monnaie s'appelle un bit. Cette ignorance peut être réduite à zéro si nous apprenons que le résultat était pile ou face. Pour cela, nous devons donc apprendre la valeur de quelque chose qui peut avoir deux valeurs possibles: 0 ou 1 ; oui ou non. Vrai ou faux. Haut ou bas.
Nous voudrions aussi obtenir que l'information concernant le résultat de deux jets de pièce de monnaie soit deux fois l'information d'un jet de pièce de monnaie, et que l'information dans 5 jets de pièce de monnaie soit 5 fois l'information pour 1 jet. La probabilité d'un résultat précis (pile-pile-face-pile-face) d'une séquence de 5 jets est 1/32. C'est 1/25 . Ainsi, la relation qui nous donne l'entropie d'un essai pour lequel tous les résultats ont une probabilité p, est:
H = log2 1/p
Nous pouvons étendre cette formule dans le cas moins intuitif où tous les résultats n'ont pas la même probabilité:
H = Σ pi log2 1/pi
La formule ci-dessus nous donne l'entropie, c'est à dire, l'ignorance, que nous avons du résultat d'un essai, quand les résultats ont des probabilités pi et que nous acceptons l'hypothèse que ces probabilités nous indiquent quelque chose d'aléatoire dont il n'y a aucun moyen d'en connaître le résultat à l'avance. Cette dernière partie est essentielle et parfois difficile à comprendre ou à prouver. L'entropie existe quand les probabilités utilisés indiquent notre ignorance avant l'essai (en plus de leur signification normale du taux moyen de succès en cas d'un grand nombre d'essais). La connaissance d'un résultat porte en lui donc éexactement la quantité d'information pour que cela réduise à zéro notre ignorance concernant ce résultat. L'entropie est donc exactement égal à la quantité d'information dans le résultat d'un essai.
Si l'entropie d'un futur "5 jets de pièces de monnaie" est 5 bit, alors apprendre le résultat de 5 jets de pièces de monnaie contient 5 bits d'information. Effectivement, pour transmettre le résultat de 5 jets de pièces de monnaie, nous aurons besoin d'envoyer 5 bit.
Une source d'entropie, ou de façon équivalente, comme source d'information, est quelque chose qui réalise un essai F fois par seconde. Si les essais sont statistiquement indépendant, alors cette source génère un flux d'entropie de F.H.
Ce qui peut nous intéresser d'avantage, est combien d'information nous apprenons d'un événement X quand nous connaissons le résultat d'un événement correlé Y. Cela est le cas d'une communication : du coté de l'émetteur il y a une source d'information où le message X est tiré et envoyé dans le canal de communication. Du coté du récepteur, le canal fonctionne comme source d'information où un message Y est reçu. La source du signal avait une entropie H(X) avant que le message soit "tiré". Quand ce message est envoyé, bien sûr du coté émetteur il n'y a plus d'ignorance concernant ce message. L'information envoyé contient donc une information H(X).
Du coté du récepteur, par contre, un message Y est reçu. Cela nous donne une information H(Y) concernant cette réception. Mais le récepteur n'est pas intéressé dans l'information qu'il obtient de Y, mais de l'information qu'il gagne (de l'ignorance qu'il perd) de X. De combien l'ignorance de X diminue quand nous apprenons Y ? Bien sûr, si le canal est parfait, nous avons que Y = X, et si nous connaissons Y nous connaissons aussi X. Mais quand le canal de communication est bruité alors Y ne permet pas de connaître X parfaitement.
Nous pouvons dire que l'information que nous gagnons de X en connaissant Y est l'entropie de X, diminué par l'entropie de X qui reste quand nous connaissons Y. S'il n'y a plus d'entropie qui reste, c'est que nous avons tout appris sur X, et donc toute son information. Si nous n'apprenons rien sur X, alors l'entropie qui reste est la même que si nous ne connaissions pas Y, et la différence est 0: nous n'avons pas d'information de X.
I(X;Y) = H(X) - H(X|Y)
On peut montrer que cela est équivalent à:
I(X;Y) = H(X) + H(Y) - H(X,Y)
Il est intéressant de constater que cette formule est symétrique en X et Y. L'information que nous obtenons de X en apprenant Y est aussi l'information que nous obtenons de Y en apprenant X.En explicitant la formule avec des probabilités, nous obtenons:
I(X;Y) = Σi Σj p(xi , yj) log2 [ p(xi , yj) / ( p(xi) . p(yj) ) ]
Dans cette expression, les probabilités sont celles des messages possibles individuels x et y et leur distribution conjointe. Nous constatons par exemple que si x et y ne sont pas corrélés (quand le message reçu n'a rien à voir avec le message envoyé) que l'expression à l'intérieur du logarithme se réduit à 1, et donc que le logarithme est 0 pour chaque terme. I(X;Y) est donc zéro, ce qui est normal quand il n'y a pas de lien entre le message envoyé et le message reçu. A l'autre extrême, pour un canal parfait, p(xi , yj ) n'est différent de 0 que quand i = j, et alors sa valeur est p(xi ) = p(yi ). Nous constatons que la formule de I(X ; Y) se réduit alors à celle de H(X) (ou H(Y)). Effectivement, quand le canal est parfait, nous recevons toute l'information du message envoyé.
Quelques cas particuliers et les distributions d'entropie maximale
Sous l'hypothèse qu'une probabilité est aussi une description d'une "impossibilité de savoir à l'avance", avec une distribution de probabilité vient donc aussi une entropie d'un essai tiré de cette distribution.
Les formules d'entropie ci-dessus sont pour des distributions discrètes, qui sont en fait les seules qui peuvent décrire une vraie situation: le nombre de résultats est toujours fini. Si ce nombre était infini, nous ne pourrions pas "enregistrer" ce résultat car il nécessiterait une quantité d'information infinie: le disque dur sur lequel nous voudrions écrire ce résultat devrait avoir une capacité infinie. Mais comme abstraction et idéalisation, des distributions continues sont bien pratiques. Comme le résultat d'un essai d'une distribution continue est un nombre réel dont la connaissance implique une quantité infinie d'information, l'entropie même d'un tel événement est infinie. C'est pour cela qu'est introduit la notion d'entropie différentielle, qui prend la même forme formelle que les formules discrètes, mais avec des intégrales à la place des sommes. L'entropie différentielle est définie "par unité de variable". Grosso modo, nous pouvons dire que c'est l'ignorance d'où se trouve le résultat sur l'axe réel, à une unité près.
L'entropie différentielle d'une distribution Gaussienne avec une déviation standard de s vaut 1/2 log2 (2.π.e.s2)
La distribution Gaussienne est la distribution avec la plus grande entropie différentielle parmi toutes les distributions continues ayant la même déviation standard. En d'autres termes, nous pouvons dire que si la déviation standard est donnée, une variable avec une distribution Gaussienne est "la plus inconnue". Si la seule chose que nous savons d'une quantité, c'est qu'elle vient d'une distribution avec une deviation standard s, alors prendre comme hypothèse que cette distribution est Gaussienne laisse le plus d'ignorance. Toute autre hypothèse de distribution introduirait une (fausse) information. Il y a des gens qui disent que c'est pour cela que la distribution Gaussienne est tellement universelle.
L'entropie différentielle d'une distribution uniforme sur une intervalle de longueur a est log2 a .
De la même façon que pour la distribution Gaussienne, la distribution uniforme est celle avec la plus grande entropie parmi toutes les distributions qui sont limités à une intervalle [0, a]. C'est pour cela que l'hypothèse d'une distribution uniforme, quand la seule chose que nous savons est que la variable est limité à l'intervalle [0,a], est la plus raisonnable, car nous n'introduisons pas une fausse information.
L'entropie différentielle d'une distribution exponentielle avec moyenne m est: log2 (e.m)
La distribution exponentielle est la distribution avec la plus grande entropie différentielle parmi toutes les distributions positives avec moyenne m.
Le fait que ces distributions sont les distributions d'entropie maximale dans un cadre donné (déviation standard donnée, intervalle donnée, ou positive et moyenne donnée) fait que ces distributions sont les choix préférés quand nous ignorons tout le reste, car c'est la façon de ne pas introduire une fausse information.
C'est pour cela que ces distributions sont souvent utilisés dans des calculs de bruit.