Pyjam a écrit:On a donc demandé aux participants de classer les câbles par ordre de préférence. Le bon résultat étant, a priori, ACB.
J'ai été plus sévère, et je ne suis pas parti de l'hypothèse qu'il y avait un "bon" classement. On ne sait pas si un câble audiophile améliore le son, ou s'il est possible qu'il le dégrade de façon agréable. Dans ce dernier cas, des audiophiles exigeants l'auraitent classé moins bon que le standard. On ne sait pas non plus si le "mauvais" câble est vraiment mauvais, car de mauvais principes pour des câbles audio, comme une bande passante étroite par exemple, peuvent être de bons principes pour un câble secteur.
Bref, je n'ai pas regardé si on trouvait de "bons résultats", mais si on trouvait des "résultats concordants". Ceci dit on ne s'attendait pas non plus à des résultats concordants dans la mesure ou les préférences peuvent varier d'un auditeur à l'autre, de même que l'adaptation du câble au matériel. C'était juste histoire de valider statistiquement une éventuelle concordance qui aurait sans cela été brandie comme preuve de la réussite sans aucun fondement statistique.
Pyjam a écrit:1/ Combien de personnes aurait dû donner la bonne réponse pour que le résultat soit suffisamment significatif par rapport à des réponses données au hasard ?
Je n'en sais rien, car l'analyse Tukey HSD ne prend pas seulement en compte les "bonnes" réponses et les "mauvaises". Elle va beaucoup plus loin et prend en compte une supériorité de A sur B si un auditeur donne ABC et un autre CAB, ou encore ACB. L'analyse compte alors trois classements A>B.
On pourrait avoir un succès sur A>B uniquement, même si tout le monde se plante sur C.
Pour info, 5 auditeurs donnant tous le même classement (5/5) conduisent à un résultat positif pour les deux câbles extrêmes avec moins de 1% de chances que ce soit le hasard (p<0.01). Pour avoir la même certitude pour tout le classement, il faut 17 bonnes réponses sur 17.
Sur 23 auditeurs, tout dépend si les autres se trompent partiellement ou complètement.
Après, il faut voir si 1% de chances de se tromper est un prérequis suffisant. Pour un câble secteur, je placerais plutôt la barre à 0.1 % (voir
http://www.hifiwigwam.com/forum1/1614-4.html#p104406 ), mais je ne sais pas faire les analyses Tukey à 0.1 %.
Pyjam a écrit:2/ Un échantillon de 19 personnes est-il suffisant pour une étude statistique ?
Il ne s'agit pas à proprement parler d'une étude statistique, où on cherche à établir une moyenne sur une population, mais d'un test randomisé, où on cherche à prouver une correspondance en écartant tout facteur autre que le son du câble.
Le facteur que l'on contrôle avec le calcul de probabilités est le hasard. Avoir une probabilité de hasard très basse sert à pouvoir affirmer que les résultats du test ne peuvent pas être dus au hasard, mais sont forcément dus à l'écoute du câble par les auditeurs, le terme "forcément" faisant référence à la probabilité obtenue.
19 personnes suffisent largement à obtenir un résultat positif, si elles répondent toutes juste ou toutes pareil.
Pyjam a écrit:Concernant le sujet objectif de l'identification du câble identique au câble de référence. Cette fois, 1 chance sur 3 de trouver la bonne réponse par hasard, soit environ 6 personnes sur les 18 ayant répondu. 8 personnes ont trouvé la bonne réponse.
3/ Cet écart est-il statistiquement significatif pour affirmer que le câble a été identifié ?
Non. Les calculs, confirmés par simulation ( voir
http://www.hifiwigwam.com/forum1/1614-6.html#p105467 ), montrent qu'un tel écart se produit entre une fois sur quatre et une fois sur cinq (p=0.22) si les auditeurs répondent n'importe quoi. Cette possibilité ne peut donc pas être écartée avec certitude.
Pyjam a écrit:Combien de personnes aurait dû trouver la bonne réponse ? Cette fois encore, l'échantillon est-il suffisant ?
Sur 23 auditeurs, si on veut un résultat qui se produit moins d'une fois sur mille quand on répond n'importe quoi (p<0.001), il faudrait 16 bonnes réponses (voir commentaires dans le premier lien ci-dessus).
Le nombre minimum d'auditeurs serait de 7. Il y a alors moins d'une chance sur mille (p < 0.001) pour qu'ils répondent juste tous les 7 sans reconnaître réellement le son du câble.
Pyjam a écrit:Plus intéressant :
4/ 14 personnes sur 18 ont identifié que le câble A (supposé audiophile) n'est pas le câble de référence. Ce résultat semble significatif. Peut-on conclure que les câbles B et C ne sont pas significativement différents pour être distinguer tandis que le câble A est significativement différent ?
C'est un vrai casse-tête mathématique, mais a priori, c'est un écart de 2 réponses par rapport au hasard (6/6/6, donc 12 réponses A<>C en moyenne), et notre résultat de 8/18 était également un écart de deux réponses par rapport au hasard. Cela ne veut pas dire que la probabilité est égale, mais on s'attend à ce qu'elle ait le même ordre de grandeur.
Or, pour simplifier, je n'en ai pas parlé, mais nous avons déjà introduit des probabilités conditionnelles très complexes en analysant deux facteurs non indépendants : le classement et l'identification. En effet, quelqu'un qui n'identifie pas correctement le bon câble a de grandes chances d'avoir un classement erroné. De plus, il n'est pas correct de considérer deux probabilités de succès pour un seul test. Heureusement, aucune n'est significative prise isolément. Ce qui signifie en gros qu'on peut multiplier par deux les probabilités d'erreur.
Considérer maintenant le critère "A n'est pas le câble de référence" est assez arbitraire, et pourrait être assimilé à un choix exprès "qui nous arrange bien" parmi de nombreux autres choix possibles. Toujours dans le cas où on n'a pas de succès, multiplier les erreurs par le nombre total de critères imaginables possibles ne suffirait même pas, car notre choix de critère est par dessus le marché conditionné à l'échec des deux analyses précédentes. On ne l'aurait pas fait si on avait eu un succès tout de suite.
En bref, tout cela combiné fait que ce n'est vraiment pas significatif du tout. Pour employer une analogie, effectuer ce test sans écouter les câbles, c'est comme acheter un ticket de loto pour voir si on va gagner, alors qu'on ne connaît pas le résultat du tirage à l'avance.
Multiplier les critères tels que "A n'est pas le câble de référence", ou "B est moins bon que A", c'est comme acheter plein de tickets de loto à la fois. Cela multiplie nos chances de gain, donc les chances de voir des corrélations alors que les auditeurs n'entendent rien,
même si chaque ticket de loto, pris isolément, a toujours aussi peu de chance de gagner, c'est-à-dire même si l'analyse statistique semble prouver le succès.