grand x a écrit:J'avais bien compris ça (ouf !), mais dans ce cas, toute réponse, A ou B, est pour moi bonne, puisque le signal est forcément bien identifié, puisqu'il est le même.
Je ne comprends pas comment tu peux utiliser des erreurs (X reconnu comme A, alors que le switch a pris B pour faire X) alors que ça n'en sont pas (au résultat écoutable, X est aussi A).
L'idée, c'est que dans ce cas de figure, on est certains que l'auditeur n'a pas discriminé A et B, puisque c'est impossible.
On regarde combien de succès se produisent en ABX quand l'auditeur n'entend pas la différence (mais pour une certaine raison, répond quand même).
C'est un chiffre fondamental dans tout ABX. S'il pouvait être égal à zéro, ce serait l'idéal. Mais ce n'est pas le cas. Alors on multiplie les essais pour faire en sorte qu'il soit le plus petit possible. On veut éliminer à tout prix la possibilité que l'auditeur puisse réussir l'ABX lorsqu'il n'y a pas de différence audible. Ce serait une "fausse preuve." Je dirais même plus, la preuve de quelque chose de faux.
Mon exemple avait pour but d'illustrer intuitivement comment un ABX pouvait réussir même entre deux éléments impossibles à distinguer à l'écoute, et surtout pourquoi il y a de plus en plus de chances que cela arrive quand les auditeurs sont nombreux ou quand ils font beaucoup de tests.
grand x a écrit:Par ailleurs, tu parles de 100 personnes qui écoutent le test, tu parles bien de 100 personnes qui en fait réalisent le test ?
Oui
grand x a écrit:Comment différencier les résultats statistiques de 14/15 réponses exactes, qui donnent une possibilité de réponse par hasard de moins de 1 sur très beaucoup (99,8%? il me semble avoir vu un chiffre de cet ordre), ce qui fait bien moins d'une chance sur beaucoup plus de 100 de réussite par hasard,
de ta dernière conclusion pour 100 personnes, qui ramène ce chiffre à bien moins, invalidant le test?
Comment arrives-tu à différencier le nombre tests nécessaire pour statistiquement avoir une chance de tomber juste par hasard et celui du nombre de participants qui invaliderait ce test?
La donnée que l'on cherche est la probabilité d'obtenir un succès en l'absence de différence entendue, appelée p, ou probabilité d'erreur de type I, bref, la proportion attendue de succès bidons.
On veut qu'elle soit très faible. Négligeable devant l'hypothèse que l'auditeur puisse discriminer A et B à l'écoute. Mettons qu'on veuille qu'elle soit inférieure à une chance sur cent.
On la mesure en valeur absolue, et on note p < 0.01, ou en pourcentage, et on note p < 1%.
Dans un test ABX, en l'absence de différences audibles entre A et B, il y a à chaque tirage exactement une chance sur deux d'avoir une bonne réponse. Cette hypothèse n'est vraie que si on effectue un vrai tirage au sort de X, pas si on se constitue une liste au pif.
p = 1/2 = 0.5.
Dans un test ABX de N tirages, chaque tirage étant indépendant des autres, comme on dit en probas, il y a une probabilité égale à (1/2)^N d'avoir toutes les bonnes réponses. Par exemple pour 15 tirages, la probabilité est de
(1/2)^15 = 1/(2^15) = 1/32768
Soit une chance sur 32768 d'obtenir un faux succès de 15/15 bonnes réponses.
Pour calculer la probabilité d'obtenir un faux succès lorsqu'on se fixe un objectif plus facile, comme 14/15, il faut faire des dénombrements.
Tout d'abord, on définit comme un succès un score de 14/15 ou un score de 15/15, et comme un échec tout autre score.
On commence par dénombrer toutes les séquences de réponses possibles. Il y en a 2^15 = 32768.
On dénombre alors le nombre de séquences gagnantes et le nombre de séquences perdantes parmi ces réponses possibles.
Succès à 15/15 : une seule séquence répond à cette condition : toutes les bonnes réponses.
Succès à 14/15 : il y a quinze séquences gagnantes. Celle avec une erreur lors du premier essai, celle avec une erreur au deuxième essai, etc.
On a donc un total de 15+1 = 16 séquences gagnantes.
On calcule alors pour déterminer la probabilité cherchée le rapport entre le nombre de séquences gagnantes et le nombre total de séquences possibles : 16 séquences sont gagnantes sur un total de 32768.
16/32768 = 1/2048.
Nous avons donc une chance sur 2048 d'obtenir un faux succès à chaque fois que l'on fait un test ABX de 15 essais et qu'on considère que 14/15 est un succès. Soit p < 0.0005, ou encore p < 0.05 %
Pour un test ABX de N essais avec b bonnes réponses attendues, on a une probabilité de faux succès (score supérieur ou égal à b) de
1/(2^N) * somme pour i variant de b à N de (C(N,i)))
Avec C(N,i) le nombre de combinaisons de i éléments parmi N, qui se calcule ainsi
C(N, i) = N!/((N-i)!*i!)
Avec N! = factorielle de N, défini par le produit des entiers de 1 à N
N! = N*(N-1)*(N-2)*... *1
Ensuite, lorsqu'il y a un nombre A d'auditeurs, et ça, on ne le trouve pas dans la littérature, qui emploie des méthodes de calcul beaucoup plus complexes, on peut faire l'approximation que p >> p2 (p au carré est négligeable devant p), c'est-à-dire ici que 0.0005 >> 0.00000025.
Cela nous permet de dire que la probabilité pour qu'un auditeur obtienne un faux succès est approximativement égale à la somme des probabilités pour que chacun d'eux obtienne un faux succès.
Si le premier a une chance sur 2048 d'y arriver, le second une chance sur 2048, et les autres idem, on a approximativement 5 chances sur 2048 d'obtenir un faux succès.
L'approximation vient du fait que si deux auditeurs obtiennent 14/15 ou 15/15, on considérera aussi que c'est un succès. Il faudrait donc ajouter aux 5 chances sur 2048 la probabilité que deux auditeurs obtienne un succès (le voilà le fameux p au carré), multiplié par le nombre C(5,2) de façons possible de tirer deux auditeurs au sort parmi 5, plus la probabilité que trois auditeurs aient un succès, fois C(5,3) etc.
Comme ces probabilités sont négligeables, je ne compte que 5 chances sur 2048, ce qui est presque exact.
Dans une recontre ABX Kangourous à 5 auditeurs s'essayant chacun à mettons 4 ABX différents, le risque de faux succès est de 5x4 = 20 sur 2048, soit un sur cent.
Si les rencontres se succèdent, les chances de faux succès se multiplient. Après 5 rencontres de ce genre, on dépasse théoriquement les 1 chances sur 20 de faux succès, au-delà desquelles on ne peut plus rien conclure.
Je dis théoriquement, car ce serait valable si on se donnait au départ 5 rencontres de 4 tests à 5 auditeur chacune et si on s'y tenait. En réalité, la probabilité est encore un peu plus grande, car on a tendance à continuer les rencontres jusqu'à ce qu'on obtienne un succès. C'est ce qu'on appelle une configuration séquentielle, qui est un tel bazar à estimer au niveau probabilité qu'on préfère interdire directement tout test séquentiel.
Le coup d'ajouter les chances de succès des auditeurs, c'est moi qui l'ai introduit dans les tests ABX audio. Normalement, dans la littérature, on cumule les réponses des auditeurs pour obtenir le score total. Exemple, si une personne obtient 15/15, une autre 5/15 et une troisième 5/15, le total est de 25/45, ce qui est un échec (p = 0.2757...).
Si un auditeur se distingue avec son 15/15, on le refait passer seul le test. S'il échoue, on considère que le test est un échec et que son 15/15 a été obtenu par chance !
Dans un contexte brûlant entre subjectivistes et objectivistes, il m'est apparu impensable d'utiliser un protocole pouvant conclure à un échec lorsqu'un auditeur obtient 15/15 dans un ABX. C'est pourquoi j'ai choisi de considérer la probabilité qu'un auditeur au moins obtienne un certain score de probabilité p, et qui vaut approximativement A * p.
Cela impose un nombre d'essais très contraignant aux auditeurs, mais cela évite la possibilité d'aboutir à des conclusions heurtant le bon sens.
Remarque, pour exemple : Ici, dans la rencontre kangourou 4, l'ABX 1 a abouti à deux succès. Un à 16/16,et un à 15/15. Il y avait approximativement une chance sur 2^15 * 2^16 que cela arrive, soit un peu moins d'une chance sur 2 milliards.
Malgré la multiplication des recontres, des tests, et le nombre d'auditeurs, cela représente donc un succès incontestable !