nico- a écrit:Si tu nies toute reussite en te basant sur les echecs les tests sont inutiles.
Il ne s'agit pas de
nier le travail des gens. Ce test, que je n'ai pas lu, est intéressant, pour un test comparatif. Il a été fait en aveugle, ce qui apporte un plus par rapport aux test comparatifs classiques. Et dans ce forum il y a quasi uniquement des tests d'écoute classiques. C'est le rôle normal d'un forum dédié à la hi-fi.
Mais là, bien qu'on en soit à la 24e page, nous parlons toujours de quelque chose de tout-à-fait spécial : les tests d'écoute scientifiques, avec tout le protocole technique qui va avec. Un élément déterminant de ce genre de test est la probabilité p pour que son succès soit erroné. Je ne vois pas la valeur de ce paramètre dans ton résumé. Donc, sous des airs sévères, je constate simplement que ce test ne rentre pas dans la catégorie des tests scientifiques, et qu'on ne peut donc pas dire s'il a une portée importante. Il nous manque le paramètre p, qui est en fait un indicateur de la pertinence du test.
RoroMinator a écrit:En l'occurence il ne s'agit pas de statistiques mais de probabilités ; j'ai une maîtrise d'économétrie si tu sais ce que c'est...
Heu, non pas du tout ! Mais c'est la deuxième fois qu'on me fait remarquer l'emploi incorrect de ces termes, et je me demande si celà n'a pas contribué à une certaine confusion dans les remarques de latsa. Comment appelle-t-on alors le calcul du p général ? Celui qui s'applique à l'ensemble de l'éxpérience ?
RoroMinator a écrit:Evidemment si tu commences à nier toute chance de succès à notre test, il ne sert à rien qu'on le fasse...
Absolument, je tenais à le préciser. Sans calculs, mêmes simples, ne faites rien ! Personne n'écoutera ce que vous avez à dire !
RoroMinator a écrit:Tu avoueras que Garf a eu du bol ; si je dois prendre le risque d'identifier 15 fois de suite une module et y arriver pour m'entendre dire ensuite c'est un coup de chance, ça ne va pas le faire
Rassures-toi, c'est bel et bien un succès. Mais il faut le replacer dans son contexte. D'abord son score n'est qu'un score parmi 24 autres pour cette seule écoute comparative. Ce qui fait fortement augmenter sa probabilité de succès. 1 sur 630 pour lui sur cette écoute-là, mais beaucoup plus pour qu'une des 24 écoutes au moins ait mené à cet accident. Ensuite, ce ne n'étaient pas les seuls résultats donnés par Garf, il y a bien eu une bonne centaine d'autres écoutes sur ce forum avec des scores ABX. Il fallait bien que ce genre d'accident arrive.
Il nous apprend deux choses : la vérification des résultats par une équipe indépendante, ce n'est pas du vent, et d'autre part, plus on réalise de tests d'écoute, plus il faut être sevère avec les conditions de succès.
RoroMinator a écrit:Je me propose de faire le test, je suis tout à fait prêt à faire mon méa culpa si je me plante mais il va falloir que vous y mettiez du votre du côté des sceptiques. Si ça ne marche pas dans les 2 sens, c'est pas la peine.
Aussi, je te propose d'élaborer le protocole du test de samedi 4 juin.
Mais avec plaisir, j'ai fondé le groupe de travail "tests en aveugle" pour ça
RoroMinator a écrit:Voici le cahier des charges :
- comparaison de 2 modules : la module d'entrée de gamme fournie avec les lecteurs CD en compétition avec ma module Ecosse
- le manipulateur tire à pile ou face la module qu'il branche ; j'écoute ; il tire à pile ou face et branche ; j'écoute et je dis si elle est différente ou pas. Ainsi de suite jusqu'à 15 identifications (différente ou identique)
- pour chaque branchement le manipulateur aura pris soin de marquer sur un papier quelle était la module et donc si elle était différente ou non de la précédente. Quant à moi, j'aurai marqué 15 fois si la module était différente ou non de la précédente.
- pendant les branchements et le test, un 2ème manipulateur devra vérifier que je ne triche pas
Voilà, dis-moi si ça te va, si j'ai oublié des choses. Aurais-je droit à des échecs (sur 15 jeux je pense que tu peux m'en accorder).
C'est un test simple aveugle, mais cela convient. Voici quelques recommendations :
Le manipulateur doit prendre garde à ne causer aucun bruit qui permette l'identification des câbles. En particulier si l'Ecosse a des prises vissantes, il faut les serrer légèrement afin d'éviter le cliquetis des bagues qui se baladent. Au début quand Patrice a pris le TaraLabs on a entendu un bruit de pièces métalliques se baladant dans tous les sens !
Il devrait aussi comme le suggère Jojolapin faire ses tirages au sort avant le test, parce s'il écrit dans la même pièce avec un stylo ça peut faire scritch scrotch pour écrire le nom d'un câble et scratch schoutchscroutchiscroutchacratchascroch pour écrire le nom de l'autre.
Pour les écoutes, surtout, ne te précipite pas. Si tu as le moindre doute sur le son d'un câble, écoute plus longuement, ou fait des pauses entre les écoutes. Penses à demander périodiquement de remettre les câbles sans tirage au sort pour lutter contre la fatigue auditive, afin de te rappeler du son qu'ils ont. Tu peux aussi faire le test en ABX : l'opérateur tire au sort un câble et c'est tout. A toi de dire lequel c'est. Et tu as le droit de le comparer aux deux câbles explicitement branchés. Choisis la méthode qui te convient le mieux.
Si tu éprouves des difficultés, interromp le test, et parle d'autre chose pendant un moment, le temps pour l'oreille de se reposer.
A partir du moment ou une réponse est donnée, et vérifiée, impossible de revenir en arrière. Une erreur est une erreur. En revanche, tu peux toi-même revenir sur des réponses que tu as écrites, mais qui n'ont pas encore été comparées aux tirages réels. Par exemple, si à partir d'un essai donné, tu t'aperçois qu'un détail te permet de faire facilement la différence, tu as le droit de redemander l'écoute des essais précédents, afin de corriger tes réponses. Mais seulement si l'opérateur n'a pas encore vu ta feuille !
Pour lutter contre les erreurs, ce que nous avons fait à Lyon est un "test blanc" : la phase 2. On essayait d'obtenir une note de 7 sur 7 avant de démarrer le vrai test, de façon à être sûrs de notre capacité à juger nos propres réponses. Il faut avoir raté un test qu'on pensait avoir réussi pour prendre la mesure de la faillibilité de notre propre oreille. Evidemment, cela rallonge considérablement la durée du test.
Se passer de test blanc n'enlève rien à la rigueur du résultat, mais cela augmente beaucoup le risque d'un échec. Echec qui serait extrêmement difficile à rattraper par la suite ! Réussir un second test après un entraînement plus poussé mènerait à un succès très mitigé du point de vue "probabilitste", le premier étant toujours à prendre en compte dans le résultat global.
Pour 15 essais on peut dire que
4 erreurs : p<6 %, échec total
3 erreurs : p<2 %, résultat intéressant, qui mérite la poursuite des tests
2 erreurs : p<0.5 %, test réussi ! A qui le tour ?
1 erreur : p<0.04 %, beau succès ! Indication très forte en faveur de l'audibilité des câbles de modulation.
0 erreurs : p<0.003 %, succès incontestable ! Il n'y a aucun doute que tu as identifié le câble branché.
L'interprétation des trois derniers scores est personnelle, et chacun devrait évaluer la portée de ces scores à la seule valeur de p, probabilité d'obtenir ce score, ou plus, par pur hasard, sans que les câbles ne soient reconaissables à l'oreille.
Dans les deux derniers cas, j'aimerais beaucoup obtenir une mesure des câbles. Si tu peux avoir un graveur de CD, je pourrai t'envoyer un CD avec des signaux test qu'il te suffira de copier en analogique à l'aide des deux câbles. Si mon CD gravé ne passe pas dans ton lecteur, on trouvera toujours un disque test de la revue du son pour faire au moins une mesure de courbe de réponse.