ogobert a écrit:C'est fort quand même d'invalider un test parce qu'il y avait 5 participants, y'en aurait eu que 2, c'était bon avec 0.89% de certitude si je reprends ton calcul...
89 % de certitude, cela ne suffit pas. Le minimum est de 95 % par convention, mais on choisit souvent plus. Moins l'hypothèse est vraisemblable, plus le "taux de certitude" si on peut l'appeler comme ceci, doit être élevé.
Ce pourcentage, c'est 1 moins la probabilité de faux succès.
Celle-ci doit être inférieure à 5% pour qu'elle soit considérée comme négligeable face à une hypothèse à tester.
Mais si on a des raisons de penser que l'hypothèse testée est peu vraisemblable, comme une différence sonore entre deux câbles secteurs, alors la probabilité de faux succès doit être d'autant plus faible pour être toujours considérée comme négligeable en comparaison.
Ceci dit, ta remarque est juste. On aurait très bien pu tomber sur un score invalide simplement parce qu'il y avait 5 participants au lieu de 2 !
Pour bien le comprendre, imaginons un test ABX entre deux systèmes de sonorité rigoureusement égale. Par exemple, avec un seul système présenté sous les identités A et B comme s'il s'agissait de deux systèmes différents.
Imaginons que l'on choisisse de fixer notre seuil de réussite par rapport à une probabilité de de faux succès égale à 1%. Ce la signifie que si les auditeurs répondent au hasard, alors en moyenne, le score sera atteint une fois sur cent, par pure chance.
Imaginons qu'un auditeur passe le test. Il n'y a qu'une chance sur 100 pour qu'il atteigne le score attendu, puisque A et B sont identiques, et qu'il n'a aucun moyen de savoir qui est X. C'est très peu probable. On pourra admettre dans un test ABX réel, avec A et B correspondant à des systèmes différents, que cette probabilité pourra être négligée devant l'hypothèse testée (si elle n'est pas trop invraisemblable) et on concluera que la différence a bien été entendue.
Imaginons maintenant que 100 auditeurs tentent de passer ce même test. On a vu qu'en moyenne, sur 100 séries aléatoires, on en a un qui atteint le score que l'on s'est fixé. Ils n'ont pas davantage de moyen de trouver les bonnes réponses puisqu'on a choisi que A soit indentique à B. Mais en moyenne, l'un d'eux aura quand même un score dépassant le seuil de succès. Cela se produira très souvent.
Par conséquent, dans un test ABX réel avec A différent de B, cette hypothèse ne pourra pas être considérée comme négligeable devant l'hypothèse testée, et on ne pourra pas conclure qu'une différence a bien été entendue, car il restera toujours l'alternative que le score ait été obtenu par chance.
On a donc bien invalidé un score donné simplement parce que 100 personnes écoutaient au lieu d'une seule.