Kangourou ABX, ép 4: du muguet pour les kangourous (1er Mai)

» 14 Mai 2009 22:18

grand x a écrit:J'avais bien compris ça (ouf !), mais dans ce cas, toute réponse, A ou B, est pour moi bonne, puisque le signal est forcément bien identifié, puisqu'il est le même.
Je ne comprends pas comment tu peux utiliser des erreurs (X reconnu comme A, alors que le switch a pris B pour faire X) alors que ça n'en sont pas (au résultat écoutable, X est aussi A).

L'idée, c'est que dans ce cas de figure, on est certains que l'auditeur n'a pas discriminé A et B, puisque c'est impossible.

On regarde combien de succès se produisent en ABX quand l'auditeur n'entend pas la différence (mais pour une certaine raison, répond quand même).

C'est un chiffre fondamental dans tout ABX. S'il pouvait être égal à zéro, ce serait l'idéal. Mais ce n'est pas le cas. Alors on multiplie les essais pour faire en sorte qu'il soit le plus petit possible. On veut éliminer à tout prix la possibilité que l'auditeur puisse réussir l'ABX lorsqu'il n'y a pas de différence audible. Ce serait une "fausse preuve." Je dirais même plus, la preuve de quelque chose de faux.

Mon exemple avait pour but d'illustrer intuitivement comment un ABX pouvait réussir même entre deux éléments impossibles à distinguer à l'écoute, et surtout pourquoi il y a de plus en plus de chances que cela arrive quand les auditeurs sont nombreux ou quand ils font beaucoup de tests.

grand x a écrit:Par ailleurs, tu parles de 100 personnes qui écoutent le test, tu parles bien de 100 personnes qui en fait réalisent le test ?

Oui

grand x a écrit:Comment différencier les résultats statistiques de 14/15 réponses exactes, qui donnent une possibilité de réponse par hasard de moins de 1 sur très beaucoup (99,8%? il me semble avoir vu un chiffre de cet ordre), ce qui fait bien moins d'une chance sur beaucoup plus de 100 de réussite par hasard,
de ta dernière conclusion pour 100 personnes, qui ramène ce chiffre à bien moins, invalidant le test?
Comment arrives-tu à différencier le nombre tests nécessaire pour statistiquement avoir une chance de tomber juste par hasard et celui du nombre de participants qui invaliderait ce test?

La donnée que l'on cherche est la probabilité d'obtenir un succès en l'absence de différence entendue, appelée p, ou probabilité d'erreur de type I, bref, la proportion attendue de succès bidons.

On veut qu'elle soit très faible. Négligeable devant l'hypothèse que l'auditeur puisse discriminer A et B à l'écoute. Mettons qu'on veuille qu'elle soit inférieure à une chance sur cent.
On la mesure en valeur absolue, et on note p < 0.01, ou en pourcentage, et on note p < 1%.

Dans un test ABX, en l'absence de différences audibles entre A et B, il y a à chaque tirage exactement une chance sur deux d'avoir une bonne réponse. Cette hypothèse n'est vraie que si on effectue un vrai tirage au sort de X, pas si on se constitue une liste au pif.
p = 1/2 = 0.5.

Dans un test ABX de N tirages, chaque tirage étant indépendant des autres, comme on dit en probas, il y a une probabilité égale à (1/2)^N d'avoir toutes les bonnes réponses. Par exemple pour 15 tirages, la probabilité est de
(1/2)^15 = 1/(2^15) = 1/32768
Soit une chance sur 32768 d'obtenir un faux succès de 15/15 bonnes réponses.

Pour calculer la probabilité d'obtenir un faux succès lorsqu'on se fixe un objectif plus facile, comme 14/15, il faut faire des dénombrements.
Tout d'abord, on définit comme un succès un score de 14/15 ou un score de 15/15, et comme un échec tout autre score.
On commence par dénombrer toutes les séquences de réponses possibles. Il y en a 2^15 = 32768.
On dénombre alors le nombre de séquences gagnantes et le nombre de séquences perdantes parmi ces réponses possibles.
Succès à 15/15 : une seule séquence répond à cette condition : toutes les bonnes réponses.
Succès à 14/15 : il y a quinze séquences gagnantes. Celle avec une erreur lors du premier essai, celle avec une erreur au deuxième essai, etc.
On a donc un total de 15+1 = 16 séquences gagnantes.

On calcule alors pour déterminer la probabilité cherchée le rapport entre le nombre de séquences gagnantes et le nombre total de séquences possibles : 16 séquences sont gagnantes sur un total de 32768.

16/32768 = 1/2048.

Nous avons donc une chance sur 2048 d'obtenir un faux succès à chaque fois que l'on fait un test ABX de 15 essais et qu'on considère que 14/15 est un succès. Soit p < 0.0005, ou encore p < 0.05 %

Pour un test ABX de N essais avec b bonnes réponses attendues, on a une probabilité de faux succès (score supérieur ou égal à b) de

1/(2^N) * somme pour i variant de b à N de (C(N,i)))

Avec C(N,i) le nombre de combinaisons de i éléments parmi N, qui se calcule ainsi
C(N, i) = N!/((N-i)!*i!)
Avec N! = factorielle de N, défini par le produit des entiers de 1 à N
N! = N*(N-1)*(N-2)*... *1

Ensuite, lorsqu'il y a un nombre A d'auditeurs, et ça, on ne le trouve pas dans la littérature, qui emploie des méthodes de calcul beaucoup plus complexes, on peut faire l'approximation que p >> p2 (p au carré est négligeable devant p), c'est-à-dire ici que 0.0005 >> 0.00000025.

Cela nous permet de dire que la probabilité pour qu'un auditeur obtienne un faux succès est approximativement égale à la somme des probabilités pour que chacun d'eux obtienne un faux succès.
Si le premier a une chance sur 2048 d'y arriver, le second une chance sur 2048, et les autres idem, on a approximativement 5 chances sur 2048 d'obtenir un faux succès.

L'approximation vient du fait que si deux auditeurs obtiennent 14/15 ou 15/15, on considérera aussi que c'est un succès. Il faudrait donc ajouter aux 5 chances sur 2048 la probabilité que deux auditeurs obtienne un succès (le voilà le fameux p au carré), multiplié par le nombre C(5,2) de façons possible de tirer deux auditeurs au sort parmi 5, plus la probabilité que trois auditeurs aient un succès, fois C(5,3) etc.
Comme ces probabilités sont négligeables, je ne compte que 5 chances sur 2048, ce qui est presque exact.

Dans une recontre ABX Kangourous à 5 auditeurs s'essayant chacun à mettons 4 ABX différents, le risque de faux succès est de 5x4 = 20 sur 2048, soit un sur cent.
Si les rencontres se succèdent, les chances de faux succès se multiplient. Après 5 rencontres de ce genre, on dépasse théoriquement les 1 chances sur 20 de faux succès, au-delà desquelles on ne peut plus rien conclure.

Je dis théoriquement, car ce serait valable si on se donnait au départ 5 rencontres de 4 tests à 5 auditeur chacune et si on s'y tenait. En réalité, la probabilité est encore un peu plus grande, car on a tendance à continuer les rencontres jusqu'à ce qu'on obtienne un succès. C'est ce qu'on appelle une configuration séquentielle, qui est un tel bazar à estimer au niveau probabilité qu'on préfère interdire directement tout test séquentiel.

Le coup d'ajouter les chances de succès des auditeurs, c'est moi qui l'ai introduit dans les tests ABX audio. Normalement, dans la littérature, on cumule les réponses des auditeurs pour obtenir le score total. Exemple, si une personne obtient 15/15, une autre 5/15 et une troisième 5/15, le total est de 25/45, ce qui est un échec (p = 0.2757...).
Si un auditeur se distingue avec son 15/15, on le refait passer seul le test. S'il échoue, on considère que le test est un échec et que son 15/15 a été obtenu par chance !

Dans un contexte brûlant entre subjectivistes et objectivistes, il m'est apparu impensable d'utiliser un protocole pouvant conclure à un échec lorsqu'un auditeur obtient 15/15 dans un ABX. C'est pourquoi j'ai choisi de considérer la probabilité qu'un auditeur au moins obtienne un certain score de probabilité p, et qui vaut approximativement A * p.

Cela impose un nombre d'essais très contraignant aux auditeurs, mais cela évite la possibilité d'aboutir à des conclusions heurtant le bon sens.

Remarque, pour exemple : Ici, dans la rencontre kangourou 4, l'ABX 1 a abouti à deux succès. Un à 16/16,et un à 15/15. Il y avait approximativement une chance sur 2^15 * 2^16 que cela arrive, soit un peu moins d'une chance sur 2 milliards.
Malgré la multiplication des recontres, des tests, et le nombre d'auditeurs, cela représente donc un succès incontestable !

» 14 Mai 2009 23:24

j'allais le dire, mais Pio m'a grillé :mdr:

» 15 Mai 2009 0:14

Merci Pio pour ce cours très didactique de probas de base et surtout l'application pratique que tu en as fait. Il ne s'agit pas de subjectivisme ou d'objectivisme mais de la dure loi des probas, qui est loin d'être intuitive, notamment sur les test séquentiels :mdr:

.
Je garde ton post dans mes favoris, car la probabilité de devoir y faire référence dans une prochaine filière tend vers 1 :wink:

» 15 Mai 2009 0:19

les mots me manquent

» 15 Mai 2009 8:15

désolé, les copains. Je vous assure, j'ai pas voulu ça !

... probas de base ...

J'ai failli m'étouffer.
C'est pas correct d'appuyer de toutes ses forces sur la tête des noyés potentiels déjà fort affaiblis !

Je pense avoir suivi, au moins de loin, enfin... :
j'ai réussi à tout lire.

juste une question: c'est quel type d'opération, ^ ?
! je me rappelle (comment aurais-je pu oublier !), mais ^, c'est nouveau pour moi.
Comment passe-t-on de 2^15 à 32768 ?
C'est la seule chose que j'ai pas "comprite".

Grand merci, Pio.
Expliqué comme ça, c'est clair, l'outillage est nickel et bien rangé, on peut s'en servir comme on veut.

Edit: s'il y a une interro, dites que je suis malade ! :wink:

» 15 Mai 2009 8:24

Edit: s'il y a une interro, dites que je suis malade !

T'inquiète pas ! :wink:

Il y aura une certaine forme de souplesse dans l'attribution des diplômes cette année ! :lol:

» 15 Mai 2009 9:13

Si je comprends bien, cette probabilité s'applique également à l'écoute en non ABX mais à l'envers:

Quelle est la probabilité qu'un subjectiviste n'entende rien en cas d'écoute consciente?
Elle tend vraisemblablement vers 0 :lol:

» 15 Mai 2009 9:27

grand x a écrit:juste une question: c'est quel type d'opération, ^ ?

Hello,

je pense que ça se lit ''Deux puissance 15''. Ex: 2^2=4 , 2^3=8, etc... c'est l'exposant si mes souvenirs de maths ne sont pas trop rouillés.

@+

» 15 Mai 2009 9:34

Exact ! (si ma calculette me fait pas des plaisanteries).

Merci !
Je connaissais pas ce signe.
Mais je suis d'un temps que les moins de 20 ans ...
Le bac sans calculette, les extractions de racines cubiques à la mano, la table de trigonométrie, ...
Ca doit dater de l'informatique, avec la difficulté de figurer les exposants.

» 15 Mai 2009 9:48

Pio2001 a écrit:16/32768 = 1/2048.

Nous avons donc une chance sur 2048 d'obtenir un faux succès à chaque fois que l'on fait un test ABX de 15 essais et qu'on considère que 14/15 est un succès. Soit p < 0.0005, ou encore p < 0.05 %

Dans le cas qui nous interesse : si 2 succes sur 1 meme test, proba= 1/4 194 304 (Le fait qu il y ait 3 echecs ne change rien puisque la proba d echouer est pratiquement 1) (les probas de reussite se multiplie car il faut que 1 et 2 reussisse (la proba 1 ou 2 reussisse est 2/2048)

» 15 Mai 2009 9:50

JG Naum a écrit:
Dans le cas qui nous interesse : si 2 succes sur 1 meme test, proba= 1/4 194 304 (Le fait qu il y ait 3 echecs ne change rien puisque la proba d echouer est pratiquement 1) (les probas de reussite se multiplie car il faut que 1 et 2 reussisse (la proba 1 ou 2 reussisse est 2/2048)

Je me disais aussi ... :lol:

» 15 Mai 2009 10:52

grand x a écrit:Je connaissais pas ce signe.

C'est un signe qui est utilisé uniquement en informatique, car le clavier manque de touches pour faire ça plus proprement.

En y passant un peu plus de temps il aurait put écrire 2¹⁵, mais ça n'est pas forcément très clair.

» 15 Mai 2009 10:59

Crao a écrit:... mais ça n'est pas forcément très clair.

expertdoc a écrit:
Je me disais aussi ...

» 15 Mai 2009 12:18

grand x a écrit::-? désolé, les copains. Je vous assure, j'ai pas voulu ça !

Voilà ce qui arrive, quand on pose des questions intelligentes !

Prochain cours : comparaison des estimations Tukey HSD, Anova et Friedman non-parametric dans les tests d'écoute ABC/HR : Pourquoi ne pas utiliser Chi-square ?

» 15 Mai 2009 12:21

Très beau smiley ! :lol: