Kangourou ABX, ép 4: du muguet pour les kangourous (1er Mai)

» 14 Mai 2009 13:34

ogobert a écrit:C'est fort quand même d'invalider un test parce qu'il y avait 5 participants, y'en aurait eu que 2, c'était bon avec 0.89% de certitude si je reprends ton calcul...

89 % de certitude, cela ne suffit pas. Le minimum est de 95 % par convention, mais on choisit souvent plus. Moins l'hypothèse est vraisemblable, plus le "taux de certitude" si on peut l'appeler comme ceci, doit être élevé.
Ce pourcentage, c'est 1 moins la probabilité de faux succès.
Celle-ci doit être inférieure à 5% pour qu'elle soit considérée comme négligeable face à une hypothèse à tester.
Mais si on a des raisons de penser que l'hypothèse testée est peu vraisemblable, comme une différence sonore entre deux câbles secteurs, alors la probabilité de faux succès doit être d'autant plus faible pour être toujours considérée comme négligeable en comparaison.

Ceci dit, ta remarque est juste. On aurait très bien pu tomber sur un score invalide simplement parce qu'il y avait 5 participants au lieu de 2 !

Pour bien le comprendre, imaginons un test ABX entre deux systèmes de sonorité rigoureusement égale. Par exemple, avec un seul système présenté sous les identités A et B comme s'il s'agissait de deux systèmes différents.
Imaginons que l'on choisisse de fixer notre seuil de réussite par rapport à une probabilité de de faux succès égale à 1%. Ce la signifie que si les auditeurs répondent au hasard, alors en moyenne, le score sera atteint une fois sur cent, par pure chance.
Imaginons qu'un auditeur passe le test. Il n'y a qu'une chance sur 100 pour qu'il atteigne le score attendu, puisque A et B sont identiques, et qu'il n'a aucun moyen de savoir qui est X. C'est très peu probable. On pourra admettre dans un test ABX réel, avec A et B correspondant à des systèmes différents, que cette probabilité pourra être négligée devant l'hypothèse testée (si elle n'est pas trop invraisemblable) et on concluera que la différence a bien été entendue.

Imaginons maintenant que 100 auditeurs tentent de passer ce même test. On a vu qu'en moyenne, sur 100 séries aléatoires, on en a un qui atteint le score que l'on s'est fixé. Ils n'ont pas davantage de moyen de trouver les bonnes réponses puisqu'on a choisi que A soit indentique à B. Mais en moyenne, l'un d'eux aura quand même un score dépassant le seuil de succès. Cela se produira très souvent.
Par conséquent, dans un test ABX réel avec A différent de B, cette hypothèse ne pourra pas être considérée comme négligeable devant l'hypothèse testée, et on ne pourra pas conclure qu'une différence a bien été entendue, car il restera toujours l'alternative que le score ait été obtenu par chance.

On a donc bien invalidé un score donné simplement parce que 100 personnes écoutaient au lieu d'une seule.

» 14 Mai 2009 13:35

NOIR a écrit:donc en terme de statisque si on est seul chez soi sans avis divergent du sien , on peut réussir ?

Pour moi, oui, si le nombre d'essais est blindé (plus de 14/15 si nécessaire), et que le test est valide, mais comme les traffics sont possibles, en fait, non !
Un test réussi valide nécessite une validation valide (c'est pas beau, mais c'est bien ce que je veux dire), pour s'imposer à d'autres. pour soi, je considère (jusqu'à explication contraire convainquante) que c'est valable.
Mais c'est mieux d'avoir un témoin extérieur pour vérifier la validité des essais (par exemple, absence de possibilité de reconnaissance annexe durant le test).

» 14 Mai 2009 13:39

wald a écrit:La difficulté survient si, sur 5 participants un seul obtient un positif.

Tout-à-fait. Si les 5 participants obtiennent un score positif, alors au contraire, le résultat est très largement confirmé. Bien mieux qu'avec un seul succès. La probabilité que cela arive par chance est en effet très très faible.
Si on choisit 1% comme taux de faux succès, alors la probabilité d'obtenir 5 faux succès simultanément est de une chance sur 10 milliards.

C'est d'ailleurs pour cette raison que je disais que la multiplication de nos tests n'était pas un problème majeur. Un tel résultat compenserait en effet largement l'inconvénient de s'y reprendre à plusieurs fois.

» 14 Mai 2009 13:41

grand x a écrit:
NOIR a écrit:donc en terme de statisque si on est seul chez soi sans avis divergent du sien , on peut réussir ?

Pour moi, oui, si le nombre d'essais est blindé (plus de 14/15 si nécessaire), et que le test est valide, mais comme les traffics sont possibles, en fait, non !
Un test réussi valide nécessite une validation valide (c'est pas beau, mais c'est bien ce que je veux dire).

Je t'avoue que j'ai dû essayer une fois ou deux. Mais comme je change plus souvent d'enceintes que d'électroniques ou de câbles , les différences sont assez faciles à cerner

» 14 Mai 2009 13:43

Imaginons que l'on choisisse de fixer notre seuil de réussite par rapport à une probabilité de de faux succès égale à 1%. Ce la signifie que si les auditeurs répondent au hasard, alors en moyenne, le score sera atteint une fois sur cent, par pure chance.

Je comprends rien du tout: selon ce que tu expliques, dans ce cas de figure, le test sera réussi à chaque essai, puisque les 2 réponses , A comme B, sont valables. Il n'y aura pas d'erreurs ou de non reconnaissance.
Soit je me trompe, soit cette base de raisonnement ne peut pas apporter de conclusion valide et utilisable .

c'est possible d'y voir plus clair? (je suis pas statisticien, je suis limité du bulbe (les études de cette dernière spécialité m'étaient plus accessibles))

» 14 Mai 2009 13:57

Bonjour Grand X,

Je voulais dire dans un test où A et B ont exactement le même son. Mais au moment d'écrire cela, je me suis dit qu'on allait me répondre que cela n'existe pas, que dans un test réel il y aura toujours une possibilité de les identifier etc.
Alors j'ai coupé court et j'ai dit "imaginons" que A et B soient le même système !

Comme si on branchait le même ampli dans les deux boucles du switch ABX d'Ohl, avec un dédoubleur Cinch en Y à l'entrée, pour que les deux sorties du switch aillent dans la même entrée de l'ampli, et les sorties Speaker A et Speaker B de l'ampli connectées aux entrées A et B du switch, l'ampli étant configuré en Speaker A+B.
On aurait le même son des deux côtés du switch ABX, puisque ce serait le même ampli. Mais il serait bien difficile de réaliser un bon score avec la télécommande puisqu'il serait alors impossible de savoir si X a été attribué à A ou à B !

Evidemment, il y en a qui vont dire que les sorties HP de l'ampli qui sont plus près du bord sont plus capactitives et donc qu'elles ont un moins bon son que les autres etc.

» 14 Mai 2009 14:00

Si je me suis permis de signaler à Pio qu'il pouvait donner l'impression de contester en soi tout résultat significatif, alors que je sais bien que ce n'est pas le cas, c'est que j'ai fait l'âne pour avoir du foin, car sa formulation prêtait un peu à confusion. Il lui fallait préciser que la publication d'un résultat positif n'est pas équivalente à sa validation après vérifications.

Cela dit, plus j'avance dans la compréhension de l'ABX, plus je comprend la frustration qu'il engendre vue sa relative complexité de mise en oeuvre et l'invalidation inévitable de beaucoup de résultats pour n'avoir pas respecté une méthodologie rigoureuse.

Mais c'est la loi du genre. Le paradoxe est qu'on est prêt à admettre qu'il est si complexe de mettre au point une électronique que certains feraient mieux que d'autres, mais qu'on se refuse curieusement à admettre qu'il est complexe de comparer deux électroniques en éliminants tous les biais qui faussent la comparaison.

Si on reprend notre problème de balance, et qu'on le suppose avéré, il entraîne donc effectivement une différence audible, ABXée positivement, entre deux appareils.

Je ne suis pas du tout certain qu'on puisse dire que l'ABX n'est pas valable dans ce cas mais seulement, après mesures, on peut commencer à corréler la différnece entendue avec l'écart de niveau entre voies (amplifié dans ces effets par le positionnement différent de A et B). Cquest disait que les balances analogiques sont souvent peu précises. N'est ce pas une piste pour expliquer une partie des différences entendues entre amplis ?

Une des choses qui me frappe, en conclusion, dans ces ABX K1,2,3 et 4, c'est qu'à travers nos erreurs méthodologiques, on a mieux compris qu'on entendait parfois des différences bien réelles, mais qu'on avait simplement tort de les attribuer aux qualités intrinsèques des électroniques testées. Ces différences audibles existent mais ont d'autres causes, comme le changement de position d'écoute ou bien le mouvement d'une personne dans la pièce, un écart de niveau ou un écart de balance.

» 14 Mai 2009 14:17

wald a écrit:Le paradoxe est qu'on est prêt à admettre qu'il est si complexe de mettre au point une électronique que certains feraient mieux que d'autres, mais qu'on se refuse curieusement à admettre qu'il est complexe de comparer deux électroniques en éliminant tous les biais qui faussent la comparaison.

J'ai juste corrigé le "s" à "éliminants" , pour encadrer cette belle et juste réflexion. :oops:

» 14 Mai 2009 14:48

Pio2001 a écrit:Bonjour Grand X,

Je voulais dire dans un test où A et B ont exactement le même son. Mais au moment d'écrire cela, je me suis dit qu'on allait me répondre que cela n'existe pas, que dans un test réel il y aura toujours une possibilité de les identifier etc.
Alors j'ai coupé court et j'ai dit "imaginons" que A et B soient le même système !

Comme si on branchait le même ampli dans les deux boucles du switch ABX d'Ohl, avec un dédoubleur Cinch en Y à l'entrée, pour que les deux sorties du switch aillent dans la même entrée de l'ampli, et les sorties Speaker A et Speaker B de l'ampli connectées aux entrées A et B du switch, l'ampli étant configuré en Speaker A+B.
On aurait le même son des deux côtés du switch ABX, puisque ce serait le même ampli. Mais il serait bien difficile de réaliser un bon score avec la télécommande puisqu'il serait alors impossible de savoir si X a été attribué à A ou à B !
...

J'avais bien compris ça (ouf !), mais dans ce cas, toute réponse, A ou B, est pour moi bonne, puisque le signal est forcément bien identifié, puisqu'il est le même.
Je ne comprends pas comment tu peux utiliser des erreurs (X reconnu comme A, alors que le switch a pris B pour faire X) alors que ça n'en sont pas (au résultat écoutable, X est aussi A).
Je sais, j'embête un peu les mouches ...
Mais comme la suite du raisonnement est basée là dessus,
Par ailleurs, tu parles de 100 personnes qui écoutent le test, tu parles bien de 100 personnes qui en fait réalisent le test ?

Comment différencier les résultats statistiques de 14/15 réponses exactes, qui donnent une possibilité de réponse par hasard de moins de 1 sur très beaucoup (99,8%? il me semble avoir vu un chiffre de cet ordre), ce qui fait bien moins d'une chance sur beaucoup plus de 100 de réussite par hasard,
de ta dernière conclusion pour 100 personnes, qui ramène ce chiffre à bien moins, invalidant le test?
Comment arrives-tu à différencier le nombre tests nécessaire pour statistiquement avoir une chance de tomber juste par hasard et celui du nombre de participants qui invaliderait ce test?

J'en vois que 2 qui suivent ! :roll:

» 14 Mai 2009 14:53

3 avec moi ! :mdr:

(mais j'ai fais 1 ans de stat à la fac) :mdr:

» 14 Mai 2009 15:38

Mof, sans parler de stat, si on admet que chaque individu n a pas les memes capacites (le meme don, le meme entrainement, la meme forme) les experiences ne sont pas identiques et dc on ne peut faire de stat dessus ...
Si on prend 100 quidams et qu on leur demande de fiaire la difference entre Rotel et Marantz, les resultats seront catastrophiques.
Si on prend 100 pros, ca sera peut etre mieux...

Pour faire des stats, il faut etre capable de selectionner l echantillon.... :lol:

Bref,

» 14 Mai 2009 15:46

Tu sembles confondre les statistiques de résultats positifs (bonne reconnaissance de X), et les statistiques de possibilités de réponse par hasard (celles qui nous intéressent maintenant).
Que les personnes soient compétentes ou non n'a pas d'incidence dans les problèmes évoqués dans les posts qui précèdent.

» 14 Mai 2009 16:08

Je n ai pas lu les post precedant en profondeur, mais l evenement 'je reconnais a/b' n a pas le meme status que je gagne au loto... ce qui rend, a mon sens le traitement statistique des resultats compliques... Je m excuse si je suis a cote de la plaque

... Ce post est interessant, il me donne envie de participer mais j ai pas le temps de le faire serieusement...

» 14 Mai 2009 17:31

JG Naum a écrit:Je n ai pas lu les post precedant en profondeur, mais l evenement 'je reconnais a/b' n a pas le meme status que je gagne au loto... ce qui rend, a mon sens le traitement statistique des resultats compliques... Je m excuse si je suis a cote de la plaque ... Ce post est interessant, il me donne envie de participer mais j ai pas le temps de le faire serieusement...

Cet exemple, je suis coupable sur ce coup, était tiré par les cheveux. Ne pas le prendre au pied de la lettre, il est plus confusant qu'autre chose en effet :oops:

.

» 14 Mai 2009 17:46

wald a écrit:
JG Naum a écrit:Je n ai pas lu les post precedant en profondeur, mais l evenement 'je reconnais a/b' n a pas le meme status que je gagne au loto... ce qui rend, a mon sens le traitement statistique des resultats compliques... Je m excuse si je suis a cote de la plaque ... Ce post est interessant, il me donne envie de participer mais j ai pas le temps de le faire serieusement...

Cet exemple, je suis coupable sur ce coup, était tiré par les cheveux. Ne pas le prendre au pied de la lettre, il est plus confusant qu'autre chose en effet .

En fait l'exemple est parfaitement exacte si A et B ont exactement le même son à l'oreille.