Test en aveugle

» 17 Oct 2009 10:52

Themisto a écrit:Corsario, t'es gentil, mais la logique c'est mon boulot, tu vois ? Donc, je suis à l'aise, t'inquiète.
Si ça te plaît de croire que je discute certains aspects de la logique ABX au nom de la-liberté-ou-je-ne-sais-trop-quoi c'est ton problème, pas le mien. Et je ne ferais strictement rien pour changer cela, ça ne m'intéresse pas.
Parenthèse fermée.

Par contre, je veux bien démontrer rapidement mon point de vue, sur les (mes) questions qui restent en suspens dans les tests ABX :

Tout d'abord, il faut tenir compte que A et B dans les tests ne sont jamais identiques, les mesures le prouvent. Donc, on teste la relation auditeur/différences, pas l'existence des différences en soi.

Cas 1 : Comparaison A et B: 15/15 pour A -> conclusion du test: A est différent de B (conclusion de ghozze: la belle affaire, on le savait déjà ) (ma conclusion: les différences constatées par l'auditeur dans les conditions du test ne sont pas dues à une relation psychologique auditeur/matériel)
Cas 2 : Comparaison A et A: 15/15 pour l'un d'entre-eux -> conclusion: erreur sur les postulats initiaux ou erreur de protocole
Cas 3 : Comparaison A et B: 9/15 pour A -> conclusion du test : Aucune. (ma conclusion: plusieurs causes possibles, mais le test ne permet pas de mettre en évidence ne serais-ce qu'une seule de valable)
Cas 4 : Comparaison répétée de différents A' et B' (où A' et B' du même type, genre amplis "bien construits") : 9/15 pour A' -> conclusion des tests : il n'y a pas de différence audible entre amplis "bien construits" [non, je ne rêve pas, c'est bien le style de raccourcis qu'on retrouve facilement. Je peux remplacer "amplis" par "câbles", ça ne change rien.] (ma conclusion: je suis béat d'admiration devant de telles conclusions, surtout quand on voit les cas 1 et 3. C'est du subjectivisme pur travesti objectivement. J'ai la désagréable impression que quelqu'un voudrait arriver à ces conclusions et qu'il utilise les tests pour arriver à ses fins.)

Voici les questions que je me pose:
A: Pourquoi dans les cas 1 et 3 on a une différence ? Trois réponses possibles: A1: parce que l'auditeur n'est pas le même. A2: erreur sur les postulats initiaux ou erreur de protocole A3: parce que le cas 2 est possible.
--- Conclusions partielles: résultats trop aléatoires car protocole non fiable, postulats initiaux faux ou incomplets. Il faudra éliminer le cas 2 si on on veut utiliser les cas 1 et 3.
--- Conclusion courte: erreur sur les postulats initiaux ou erreur de protocole. Dans ces conditions, la probabilité de la véracité des conclusions du cas 4 est nulle.
B: Est-ce que l'élimination du cas 2 est possible en utilisant le test ABX ? Réponse: Non, c'est un calcul de probabilités, ce n'est pas un processus auto-validant.
C: Est-ce que l'élimination du cas 2 est possible en utilisant une autre théorie ? Réponse: vu le nombre de variables qui interviennent dans ce test (et la fameux principe mal traduit) ce n'est probablement même pas la peine d'y penser.

Éliminer le cas 2 et maîtriser les incohérences des cas 1 et 3 sont "nécessaires et suffisants" pour quiconque veut ériger les conclusions de ces tests au rang de "vérité incontestable", donc "répétables".
Mais, on peut continuer à pratiquer les tests, et garder les conclusions pour soi. Libre arbitre, toussa, toussa.
Et on peut continuer à discuter des tests ABX en faisant abstraction des conclusions, mais dans ces conditions, je ne vois pas de quoi on va parler...

D'ici-là, je garde ce type de tests comme méthode valable pour me forger une idée personnelle sur les appareils hifi, parmi un paquet d'autres méthodes tout aussi valables (bien que moins formalisées).
Ni plus, ni moins.
Et évidemment, libre à tout un chacun de penser autrement et patati et patata.
Merci de m'avoir lu.

Merci de l'avoir écrit. Bon week end à tous, Jacques.

» 17 Oct 2009 10:59

@JACBRU et Themisto : vous n'avez pas compris ce qu'est un test ABX, comme wald vient aussi de le rappeler

Un test ABX ce n'est pas un vote (pour A ou B) :cry:

ce n'est pas un vote... :cry:

ce qu'a écrit Themisto n'a pas de sens, ce n'est pas un test ABX. Si JACBRU l'approuve c'est qu'il n'a pas compris non plus ce qu'est un test ABX. Dans un test ABX on en compte que deux choses : les réponses correctes et les réponses fausses. S'il y a 15 réponses correctes, c'est plié.

» 17 Oct 2009 11:21

Themisto a écrit:(...)

Cas 4 : Comparaison répétée de différents A' et B' (où A' et B' du même type, genre amplis "bien construits") : 9/15 pour A' -> conclusion des tests : il n'y a pas de différence audible entre amplis "bien construits" [non, je ne rêve pas, c'est bien le style de raccourcis qu'on retrouve facilement. Je peux remplacer "amplis" par "câbles", ça ne change rien.] (ma conclusion: je suis béat d'admiration devant de telles conclusions, surtout quand on voit les cas 1 et 3. C'est du subjectivisme pur travesti objectivement. J'ai la désagréable impression que quelqu'un voudrait arriver à ces conclusions et qu'il utilise les tests pour arriver à ses fins.)

(...)

Ne pas confondre "hypothèse" et " conclusion", il est évident à mes yeux que ce genre de formule (que j'ai pu employer) est une hypothèse à partir de la multiplication de certains types d'ABX négatifs corrélés dans ces cas d'espèces par la comparabilité des mesures dans le domaine audible. Mais je conçois que beaucoup, à commencer par moi, peuvent ne pas toujours signifier clairement le domaine de l'un et celui de l'autre. Cela étant nous sommes fort nombreux a répéter inlassablement qu'on ne peut pas tirer de conclusions d'un ABX négatif (isolé) et j'ai bruyamment approuvé jacbru et ensuite Hervé25 sur les limites posées à un ABX positif et a fortiori un ABX négatif. Donc il faut que nous soyons plus précis mais aussi que nos lecteurs fidèles et attentifs ne soient pas oublieux.

il existe aussi, je partage ce avis, quelques objectivistes qui sont tentés de voir dans la multiplication des ABX négatifs la confirmation de leurs certitudes. Mais ce n'est pas le cas de la presque totalité de ceux qui s'expriment avec régularité sur HCFR. Prenons Denis31 - et qu'il m'excuse de le citer comme exemple -, qui s'est parfois fait qualifier ici d'objectiviste radical alors qu'il ne cesse de réfléchir sur les raisons des échecs en ABX et cherche à améliorer la procédure ABX pour les éviter autant que faire ce peut.

» 17 Oct 2009 11:44

wald, j'en profite rapidement pour signaler que : loin de moi l'idée de généraliser aussi. Je suis conscient de la difficulté de la chose, et je suis également conscient de la bonne foi et de l'intégrité intellectuelle de beaucoup (y compris Denis).
Mon propos sur le cas 4 ne visait pas de ridiculiser la démarche, mais bien de souligner les excès (qui d'ailleurs sont quasi-inexistants ici, mais très courants ailleurs).
Je suis désolé si j'ai pu donner l'impression d'avoir une attitude similaire à celle que mon propos tentait de stigmatiser.

Je reviendrais rapidement pour éclaircir le formalisme de mes exemples (vu que cela a un effet bloquant, visiblement).

» 17 Oct 2009 12:51

Sur ce post, je ne reviendrai pas sur la procédure ABX mais sur le cas A contre A que soulève Themisto.
A ma connaissance, cela n'aurait pas d'intérêt dans une procédure de type ABX (on comparerait quoi?) mais aurait un éventuel in térêt dans un cadre plus général ("tester le testeur" comme je l'évoque dans un autre mail).
Admettons que l'on compare (en aveugle) un matériel A à lui-même, après avoir fait croire au testeur qu'il s'agit de deux matériels différents et qu'on demande à ce dernier s'il entend une différence entre A et B (en réalité A et A).. On procède à la même expérience 20 fois.
S'il n'entend pas de différence dans la majorité des cas (par exemple 15 cas sur 20), on peut estimer que son jugement est relativement fiable. S'il "entend" une différence dans la majorité des cas, on peut avoir des doutes sur sa capacité de jugement. Soit il répond n'importe quoi (au hasard?), soit il s'autosuggestionne (il a cru par exemple ressentir une différence à la 3ème expérience et tente de retrouver cette "différence" aux expériences suivantes), soit il cherche à "faire plaisir" en "trouvant " un maximum de différences (cas courant dans des domaines ayant trait à la sociologie, à la psychologie expérimentale etc.).

Un cas intéressant et particulier de A contre A (non en aveugle pour des raisons évidentes expliquées par la question posée) dans une expérimentation des années 60 a consisté à comparer les "effets secondaires" de deux produits identiques de couleur différente. Les résultats ont été différents entre les deux produits en terme de nature et d 'intensité des effets secondaires. On a fait une expérience similaire avec deux produits placebo de couleur différente et encore une fois, des différences en fonction de la couleur du produit (en pratique depuis, en procédure double aveugle, on s'efforce dans la mesure du possible que les produits comparés soient de couleur "neutre" (blanc par exemple-si tant est que blanc soit une couleur-)). On pourra arguer que dans ce cas il ne s'agit pas d'un vrai A contre A puisque les deux produits sont distinguables l'un de l'autre mais dans d'un point de vue pharmacologique les produits sont absolument identiques (on a testé auparavant l'absence d'action pharmacologique du colorant utilisé). Un cas comparable peut-être en psycho-acoustique où des enceintes rouges avaient été jugées plus aggressives que leurs homologues identiques noires au son jugé plus neutre.
Un autre cas amusant où A est différent de B mais que l'on souhaite rapprocher A de B pour qu'ils soient indistinguables. Par exemple le cas suivant: On souhaite comparer l'efficacité de deux traitements en aveugle sous forme de potion. Le problème est que l'une est amère et l'autre insipide ce qui rend "l'aveugle" impossible en l'état. On va donc essayer de masquer le goût de l'une l'autre ou les deux, pour les rendre indistinguables au testeur. Dans ce cas, on ne cherche pas une "différence" mais une "équivalence". Je crois que dans le même ordre d'idée Carver dans les années 70 se faisait fort de construire un amplificateur qui sonnerait de manière identique (ou non indistinguable ) à n'importe quel autre ampli sur le marché. Tout cela pour dire que rien que sur A contre A, il existe une multitude d'expériences (pas en ABX je l'accorde) et ces quelques anecdotes pour montrer que les procédures comparatives en général (en aveugle idéalement mais pas toujours) sont beaucoup plus variées et parfois plus riches d'enseignement que la procédure ABX proprement dite.

» 17 Oct 2009 14:29

C'est le test menteur auquel j'ai fait allusion mais je n'avais pas envisagé aller aussi loin car généralement il procède d'une erreur d'expérimentation.

Le lien donné par Oryzon dès son premier post montrait qu'une dégustation de vins en aveugle (on teste la préférence et non la différence) avait entraîné accidentellement (voir Edit) ce résultat, des critiques professionnels avaient donné des notes et des caractérisations différentes au même vin et s'étaient donc trouvé incapables de le reconnaitre. la sanction fut l'exclusion du jury.

Dans la dégustation de vins, chez les amateurs, le test menteur est un passage obligé et ludique, tant et si bien d'ailleurs que les dégustateurs sont méfiants et sont vigilants. On le pratique évidemment peu ou pas chez les pro car les résultats, comme on le voit ci-dessus, peuvent être meurtrier :wink:

J'avais cité sur un autre fil l'étude de l'inra http://www.inra.fr/presse/le_gout_du_vin_dans_nos_tetes. qui illustre exactement ton propos et qui est un vrai test menteur, passionnant dans ce qu'il ouvre comme portes.

La difficulté de réaliser ce type de tests, que nous avions déjà abordé, c'est que la préparation ne peut être publique bien entendu et que ça nécessite une organisation autrement plus lourde qu'un ABX. Quoiqu'il en soit j'en rêve éveillé depuis des lustres.

EDIT : vérification faite, l'introduction d'un test menteur dans une dégustation de vin très prestigieuse était volontaire mais ses conséquences dépassèrent toute attente :

Pour ce faire, lors de la California State fair, le plus vieux concours de vins d'Amérique du nord, il a introduit trois fois le même vin lors de la journée de dégustation à l'aveugle. Résultat, sur les 65 à 70 professionnels (vignerons, négociants, critiques, professeurs d'œnologie et de viticulture) que compte ce concours, seulement 10% des juges ont donné une note similaire à ce vin. Pire, 10% des plus mauvais juges ont carrément jugé médiocre ce vin auquel ils avaient attribué une médaille d'or plus tôt dans la journée. La réaction des organisateurs du concours ne s'est pas faite attendre : les mauvais goûteurs seront éconduits, les meilleurs verront leurs papilles préservées : ils ne goûteront plus que 75 vins par jour, contre 150 jusqu'à présent. Pour la décharge des plus mauvais, il y a deux ans lors du même concours, des jurés avaient couronné un vin industriel, vendu 2 dollars par l'enseigne Trader's Joe, l'équivalent de Leader Price, comme le meilleur chardonnay de Californie.

» 17 Oct 2009 16:17

herve25 a écrit:Sur ce post, je ne reviendrai pas sur la procédure ABX mais sur le cas A contre A que soulève Themisto.
A ma connaissance, cela n'aurait pas d'intérêt dans une procédure de type ABX (on comparerait quoi?) mais aurait un éventuel in térêt dans un cadre plus général ("tester le testeur" comme je l'évoque dans un autre mail).
Admettons que l'on compare (en aveugle) un matériel A à lui-même, après avoir fait croire au testeur qu'il s'agit de deux matériels différents et qu'on demande à ce dernier s'il entend une différence entre A et B (en réalité A et A).. On procède à la même expérience 20 fois.
S'il n'entend pas de différence dans la majorité des cas (par exemple 15 cas sur 20), on peut estimer que son jugement est relativement fiable. S'il "entend" une différence dans la majorité des cas, on peut avoir des doutes sur sa capacité de jugement. Soit il répond n'importe quoi (au hasard?), soit il s'autosuggestionne (il a cru par exemple ressentir une différence à la 3ème expérience et tente de retrouver cette "différence" aux expériences suivantes), soit il cherche à "faire plaisir" en "trouvant " un maximum de différences (cas courant dans des domaines ayant trait à la sociologie, à la psychologie expérimentale etc.).

Je souligne ici que herve, comme il le précise lui-même, ne parle pas ici d'ABX mais de test en aveugle : dans ce test en aveugle on demande à quelqu'un s'il entend une différence entre A et B. Ce n'est pas ça un ABX : un ABX ce n'est pas demander 15 fois de suite à quelqu'un s'il entend une différence entre A et B (je précise car je n'ai pas l'impression que c'est clair pour tout le monde).

J'ai l'impression que Jacbru, Themisto & co quand ils parlent des problèmes de subjectivité de l'auditeur se réfèrent toujours à un test certes en aveugle, mais de type "vote", ou "préférence". Là évidemment, on l'a dit et redit, il est difficile d'avoir une conclusion irréfutable. Et il me semble que c'est uniquement dans ce type de test en aveugle que l'on peut avoir les cas 1 à 4 décrit par Themisto, mais en aucun cas dans un test ABX (dans un test ABX on a deux possibilités : plus de 14 succès sur 15 (ABX réussi) ou moins de 14 succès sur 15 (ABX échoué).

Hervé précise également dans ce qui suit qu'un test en aveugle de type vote ou préférence est plus souple et peut apporter plus d'enseignement (s'il y a suffisamment de testés) qu'un test ABX :

Tout cela pour dire que rien que sur A contre A, il existe une multitude d'expériences (pas en ABX je l'accorde) et ces quelques anecdotes pour montrer que les procédures comparatives en général (en aveugle idéalement mais pas toujours) sont beaucoup plus variées et parfois plus riches d'enseignement que la procédure ABX proprement dite.

C'est exact, le test ABX est plus limité. Mais le test ABX a ce grand avantage que lorsqu'il est réussit (plus de 14 succès sur 15), il amène à une conclusion irrévocable : A et B sont différents (et un résultat complémentaire : il existe au moins une personne, l'auditeur testé, qui est capable d'entendre cette différence)

pour revenir à A contre A, en ABX ça amenerait tout simplement à l'échec du test (et donc qu'on ne peut rien conclure) :

- ABX réussit implique A différent de B

je prends le négatif de ça :
- non(A différent de B) implique non(ABX réussit)

soit en bon français (si j'ose dire) :

- (A=B) implique ABX échoué

(on remarque que ABX échoué n'implique jamais rien du tout)

Qu'est-ce qu'il va donc se passer dans un ABX où A=B (pas grand chose) :
On prend donc deux platines identiques, l'une à gauche l'autre à droite. Le testeur doit les reconnaitre (on en joue une au hasard, X, il ne sait pas laquelle, on lui fait écouter ensuite gauche et droite et il doit dire si X est la platine de gauche ou de droite). Par construction du test il ne pourra pas deviner correctement plus de 14 fois sur 15 (à mon avis il devinera correctement une fois sur deux en moyenne, donc il sera grosso modo à 7 sur 15), et on aura le verdict : ABX échoué. C'est évidemment beaucoup moins intéressant que le test menteur que propose Hervé car dans ce test ABX on n'apprendra rien. Et en plus on connait le résultat à l'avance. Mais c'était pour clarifier les choses.

» 17 Oct 2009 16:47

Il me semble à travers le post de Hevé25, ou certaines réflexions de jacbru, effectivement utile de revenir sur un point. `

Pourquoi la mise en avant presque exclusive de l'ABX en audio au détriment d'autres formes de tests, en aveugle ou non ?

cela ressort de trois phénomènes à mon avis :

1. pour beaucoup - j'en fais partie - la question préalable " existe-t-il une différence ? " est très loin d'être réglée, par exemple entre câbles, entre lecteurs CD et dans une moindre mesure sans doute entre amplis.

Quand Jacbru dit en substance : il y a des différences incontestables entre Câbles de modulation mais rien qui justifie la surlecutance des sensations, et rien de toute façon qui justifie les câbles HDG et ce serait pire encore avec les câbles secteurs qui sont quasiment indiscernables. C'est pourquoi il est inutile de réaliser des ABX uniques ou à petite échelle qui n'apportent rien car il faudrait travailler sur une population considérable pour un résultat au final aléatoire et sans doute sans intérêt, ", il postule par trois fois, ce qui ne pourrait se concevoir que s'il y avait au moins un consensus relatif.

On a dit et répété que la presse audio tient dans son ensemble pour acquises des différences parfois importantes entre ces appareils ou accessoires et qu'elle a, de mon point de vue, formaté une génération entière. Le principal intérêt de l'ABX est donc purement probatoire - que celui qui a entendu la différence le prouve - et ce n'est pas rien.

A cet égard je n'ai pas lu, de jacbru et bien moins encore de Hervé25 une réfutation quelconque. je veux dire qu'ils semblent, avec le bénéfice de leurs pratique des tests en aveugles en pharmacologie, agréer au caractère probatoire de ces tests.

La difficulté toutefois avec les posts de Jacbru et dans une moindre mesure ceux de Hervé25, c'est qu'en disant en substance que les tests ABX sont limités à une spécification étoite - ce que les ABXeurs confirment dans leur ensemble - ils sont mal lus. ils sont lus comme apportant LA pierre du SPECIALISTE à l'INVALIDATION de l'ABX comme protocole probatoire.
`
Qu'ils soient approuvés par Ghozze ou Expertdoc, qui sont d'ardents militants de la ligne " l'ABX audio n'est en rien un protocole valable pour prouver une différence entendue", est signe d'un sérieux contresens.

2. L'excès de mise en avant de l'ABX audio sur ce forum est largement lié à la bronca qui suit mécaniquement toute évocation de l'ABX audio comme dispositif probatoire. S'il y avait moins de polémiques parfois incroyablement stériles et répétitive, comme si on n'avait jamais donné les précisions utiles auparavant, on parlerait bien plus d'autres types de tests (Pio a souvent évoqué des tests en aveugles qui ne sont pas des ABX mais comme personne ne cherche à comprendre la différence, ça part en c..... de la même manière).

Je note avec tristesse, au passage, le découragement visible de personnes hautement recommandables comme Pio, Ohl ou Syber, pour ne citer qu'eux.

3, Les ABX audio sont dans l'ensemble plus aisés à mettre en oeuvre mais qu'à cela ne tienne, si les Kangourous n'ont tenté que ce type de test, rien ne leur interdit de pousser vers d'autres tests et surtout rien n'interdit à ceux qui dénient tout intérêt aux tests ABX de procéder de leur coté.

Pour le moment seule la critique est venue dire son mot et on attend avec intérêt des candidats à des expériences concrètes sur d'autres protocoles. Je pourrais dire qu'on va sans doute attendre longtemps, mais je vais faire preuve de positivisme.

Bien évidemment, les autres types de test sont au moins aussi intéressants et répondent d'ailleurs à des problématiques généralement liées (de l'influence ...). J'ai personnellement très souvent évoqué les dégustations en aveugles en oenologie ou dans le domaine agro-alimentaire qui en relèvent. Là où je doute de voir nos habituels ferrailleurs tenter quelque chose de ce coté, c'est que je crains que la réaction épidermique qui s'exprime sur la question des tests ABX s'exprime de nouveau sur tous autres tests en aveugle. Mon sentiment, mais je serais sincèrement ravi de me tromper, c'est que la remise en cause de ses sensations est une cause perdue pour de nombreux audiophiles.

» 17 Oct 2009 23:19

wald a écrit:Je note avec tristesse, au passage, le découragement visible de personnes hautement recommandables comme Pio, Ohl ou Syber, pour ne citer qu'eux.

Découragement ? Pourquoi ? Tu t'attendais à ce que j'intervienne ?

La moitié des interventions récentes consistent à dire soit que le sujet n'est pas intéressant, soit à essayer en vain de définir la différence entre un test et une étude.

wald a écrit:Là où je doute de voir nos habituels ferrailleurs tenter quelque chose de ce coté, c'est que je crains que la réaction épidermique qui s'exprime sur la question des tests ABX s'exprime de nouveau sur tous autres tests en aveugle.

Il faudrait déjà pour avoir la même chose que dans le vin, qu'un salon de hifi réunisse des auditeurs, et que tous les auditeurs soient invités à noter les appareils présentés.
Il serait ensuite naturel de procéder aux notations en aveugle.

» 18 Oct 2009 3:20

Je suis globalement d'accord avec les interventions précédentes mais avoue ne pas comprendre la première partie du texte de Pio.
1.A-t-on le droit de parler d'autre chose que de l'ABX dans ce file? A mon sens oui puisque le titre est sur les tests en aveugle en général;
2. A-t-on le droit de parler des limites de l'ABX tout en lui reconnaissant une certaine utilité? J'ai essayé de le faire sans esprit polémique particulier. Serait ce un crime de lèse majesté? Si j'ai fait une erreur dans le raisonnement et l'argumentaire vis à vis de ces limites, je suis prêt à les écouter, les discuter et les accepter s'ils m'apparaissent valides
3. A t-on le droit de se servir d'exemples ou d'expériences dans d'autres disciplines pour étayer son propos? Là effectivement, on peut discuter de leur bien fondé, mais je crois qu'il serait dommage de ne pas regarder ce que font les autres lorsqu'ils sont confrontés à des problèmes sinon similaires du moins assez proches.

» 18 Oct 2009 11:49

herve25 a écrit:1.A-t-on le droit de parler d'autre chose que de l'ABX dans ce file? A mon sens oui puisque le titre est sur les tests en aveugle en général;

Evidemment.

herve25 a écrit:2. A-t-on le droit de parler des limites de l'ABX tout en lui reconnaissant une certaine utilité? J'ai essayé de le faire sans esprit polémique particulier. Serait ce un crime de lèse majesté? Si j'ai fait une erreur dans le raisonnement et l'argumentaire vis à vis de ces limites, je suis prêt à les écouter, les discuter et les accepter s'ils m'apparaissent valides

Oui, si je n'ai pas manqué un épisode, pour l'instant, il n'a été question que des limites de l'ABX dans l'évaluation de l'efficacité et des effets secondaires des médicaments sur une population.

Pour les tests d'écoute, lorsqu'une question, problématique, ou étude a été proposée, la pertinence de l'ABX n'a jamais été discutée ensuite, et inversement, lorsque la pertinence de l'ABX a été discutée, jamais la problématique n'a été posée au préalable. Il était admis implicitement qu'on cherchait à quantifier l'effet d'un appareil hifi sur un ensemble d'auditeurs. Ce pour quoi l'ABX est évidemment inadapté.

Pour parler des limites de l'ABX et des autres tests, il est nécessaire de faire la liste de toutes les questions qu'il est possible de se poser, puis d'indiquer ce que chaque type de test ou d'étude peut donner comme réponse à ces questions, en indiquant quels moyens sont nécessaires à chaque test pour obtenir tel niveau de significativité dans tel partie de la réponse, le niveau de significativité attendu étant, dans le contexte de la hifi, très différent du domaine scientifique en raison de l'invraisemblance de nombreux fait allégués : jamais on ne considérera qu'une différence est audible entre câble secteurs avec une probabilité d'erreur de 5%, car entre l'hypothèse que le câble secteur ait un son (1 pour mille de vraisemblance), et celle que le succès est un coup de bol (5 pour cent de vraisemblance), on retiendra naturellement la plus probable.

Je pense que ces données sont parfaitement connues de plusieurs forumeurs (Corsario, Jacbru et toi-même), et qu'elles peuvent être données à titre informatif sans démonstration, celles-ci pouvant venir ensuite dans la discussion si un type de question/test apparaît concrètement réalisable. Mais étant donné le contexte de la discussion, on a pu voir qu'un grand nombre de questions émanait de participants non intéressés, et que leur martélement a conduit à consacrer des pages entières de messages à des points totalement triviaux. Je pense que si nous souhaitons discuter des différents types de test qui existent, nous devrions ouvrir un nouveau sujet dans le forum "Travail de groupe - DIY", qui est fait pour les travaux de groupe, et dans lequel la modération aura beaucoup moins à intervenir pour dérapage.

herve25 a écrit:3. A t-on le droit de se servir d'exemples ou d'expériences dans d'autres disciplines pour étayer son propos? Là effectivement, on peut discuter de leur bien fondé, mais je crois qu'il serait dommage de ne pas regarder ce que font les autres lorsqu'ils sont confrontés à des problèmes sinon similaires du moins assez proches.

A condition de comparer ce qui est comparable, c'est-à-dire de regarder ce qui est fait dans les autres disciplines lorsqu'elles se posent de questions similaires. Discuter de la pertinence d'un test sans savoir à quelle genre de question on cherche à répondre n'a pas de sens.

» 18 Oct 2009 13:25

corsario a écrit:@JACBRU et Themisto : vous n'avez pas compris ce qu'est un test ABX, comme wald vient aussi de le rappeler

Un test ABX ce n'est pas un vote (pour A ou B)

ce n'est pas un vote...

ce qu'a écrit Themisto n'a pas de sens, ce n'est pas un test ABX. Si JACBRU l'approuve c'est qu'il n'a pas compris non plus ce qu'est un test ABX. Dans un test ABX on en compte que deux choses : les réponses correctes et les réponses fausses. S'il y a 15 réponses correctes, c'est plié.

Dissonnance cognitive. Il y a quelque chose de trop précieux à préserver. L'indice a été donné dans les réponses : un protocole de validation, ça sert à rien, parce que les différences, je les entend et personne n'a le droit de mettre en doute ce que j'entends. La dernières proposition est implicite, et c'est pour préserver ça que cette discussion a lieu.

» 18 Oct 2009 13:27

herve25 a écrit:Je suis globalement d'accord avec les interventions précédentes mais avoue ne pas comprendre la première partie du texte de Pio.
1.A-t-on le droit de parler d'autre chose que de l'ABX dans ce file? A mon sens oui puisque le titre est sur les tests en aveugle en général;
2. A-t-on le droit de parler des limites de l'ABX tout en lui reconnaissant une certaine utilité? J'ai essayé de le faire sans esprit polémique particulier. Serait ce un crime de lèse majesté? Si j'ai fait une erreur dans le raisonnement et l'argumentaire vis à vis de ces limites, je suis prêt à les écouter, les discuter et les accepter s'ils m'apparaissent valides
3. A t-on le droit de se servir d'exemples ou d'expériences dans d'autres disciplines pour étayer son propos? Là effectivement, on peut discuter de leur bien fondé, mais je crois qu'il serait dommage de ne pas regarder ce que font les autres lorsqu'ils sont confrontés à des problèmes sinon similaires du moins assez proches.

1 - Oui ; 2 - Oui ; 3 - Oui

...pour les détails, voir ce que Pio a écrit.

Sinon je pense à un truc pour que ce topic serve quand même à quelque chose : je pense que la parole de Herve25 aura du poids pour Themisto, JACBRU, et autres sceptiques imperméables à la simple démonstration logique (et peut-être même Ghozze). Ayant perdu espoir dans la possibilité que Themisto & co ( et peut-être d'autres je ne sais pas) arrivent à accepter le principe du test ABX par le raisonnement (une trivialité comme le rappel Pio), il reste l'argument d'autorité : si Herve25 est d'accord avec ce que je vais énoncer dans l'encadré plus bas, ça pourrait avoir une influence positive sur ces personnes. Herve serait notre médiateur en quelque sorte (c'est malheureux d'en arriver là alors que nous avons tous et chacun un cerveau et que normalement c'est notre cerveau qui nous sert à réfléchir, mais bon, si certains ont beoins du cerveau des autres, allons-y). Voici donc l'encadré sur lequel je demande à Herve25, en tant que médiateur, son approbation, à savoir le principe du test ABX :

Supposons que Pierre réussisse un test ABX, c'est-à-dire que Pierre identifie correctement 15 fois sur 15, en double-aveugle, deux appareils A et B (15 succès sur 15 tentatives), alors nous pouvons dire avec certitude (plus exactement avec une confiance de 99.997 %) que :

1 - A et B sont différents
2 - Pierre est un auditeur capable d'entendre cette différence

Ces deux assertions sont sûres à 99.997 % (c'est-à-dire que l'on a 0.003% de chance de se tromper), dans le monde réel on peut dire que ces deux assertions sont certaines et indiscutables. De plus elles n'ont rien de subjectif, rien de variable. Elles sont valides (et démontrées).

Commentaires :
- Si le niveau de confiance de 99.997 % n'est pas jugé suffisant pour telle ou telle raison pour garantir la "certitude", le principe du test ABX reste le même, il suffit juste d'augmenter le nombre de succès à réussir à la suite. Par exemple en exigeant 35 identifications correctes sur 35, on arrive à un niveau de confiance de 99.999999997 %, soit un risque d'erreur de 0.000000003 %.
- on suppose ici que le protocole est correct. S'il y a une erreur de protocole (par exemple sur B un effet surround était enclenché par erreur), le principe reste toujours correct, mais la conclusion devrait être : [A] est différent de [B avec surround enclenché]. Cependant comme ce n'était pas ce qu'on voulait tester il faut recommencer le test en corrigeant le protocole (désactiver l'effet surround) de manière à vraiment tester [A] et [B].
- il est intéressant de voir que l'un des deux résultats est indépendant de l'auditeur : "A est différent de B" est prouvé dans l'absolu. C'est intéressant de voir que l'on peut avoir un résultat certain et absolu avec un seul auditeur (c'est pour certains un paradoxe insurmontable quand "l'appareil de mesure" utilisé est un être humain).
- Notons que l'on pouvait connaître ce résultat (A est différent de B) sans avoir besoin de test ABX, par exemple avec des mesures (ex : A à un rapport signal/bruit de 120 dB, alors que B à un rapport signal/bruit de 110 dB). Dans ce cas le test ABX apporte une information moins (ou plus suivant les points de vue) importante : il nous dit que cette différence est audible par au moins un être humain, à savoir Pierre. C'est plus important car on ne savait pas avant si la différence mesurée était audible, mais ça peut être jugé peu utile car pour le moment on sait que c'est audible pour une seule personne (so far).
- Inversement deux appareils pourraient être identiques sur les quelques mesures faites, mais se révéler différents lors d'un test ABX (je ne sais pas si c'est déjà arrivé ou si ça peut arriver) : l'oreille humaine mesurant "d'autres choses" que les mesures physiques.
- L'astuce qui permet d'avoir (en cas de succès au test ABX) deux résultats certains et absolus (les points 1 et 2 de l'encadré) en utilisant un seul être humain comme "appareil de mesure" est la suivante : l'être humain ne sert pas à faire des mesures quantitative mais qualitative, i.e. identifier A ou B en entendant X. Si on avait fait une seule tentative on aurait eu 50% de chance que l'auditeur ait donné la bonne réponse par hasard (l'auditeur a une chance sur deux de donner la bonne réponse). En réitérant les demandes d'identification on divise par 2 à chaque nouveau succès le pourcentage que les identifications aient été dues à la chance ou au hasard*.
- A partir de là il est tout à fait possible de discuter l'intérêt (ou le non-intérêt) des deux informations obtenues suivant les objectifs visés.
- Notons que le test ABX a un intérêt pédagogique pour l'auditeur testé : imaginons que cet auditeur déclare entendre la différence entre A et B en non-aveugle, niveaux égalisés : on lui passe A (il sait que c'est A), on lui passe B (il sait que c'est B) et il entend très bien la différence (sur des extraits courts). De telles choses arrivent tous les jours ("il y a plus de profondeur, plus de densité, plus de délié, plus de transparence", etc). Sans rien changer on ne lui dit plus si on lui passe A ou B. On lui passe donc l'un des deux, X. Puis on lui remet A, on lui remet B et on lui demande : X, c'était lequel ? Rien n'a changé par rapport à tout l'heure. Si l'auditeur n'est plus capable de faire la différence (tout est dans le "plus" : il était capable, il n'est plus capable - le seul changement c'est qu'on lui cache A et B), alors il aura appris beaucoup. Pour lui ça sera plus qu'un ABX échoué duquel on ne peut pas tirer de conclusion. Pour lui, et pour lui seul, ça aura été un sérieux doute sur l'existence des différences entre A et B. Il est probable qu'après le test, en revenant en non-aveugle il n'entende plus les différences qu'il entendait. Cet intérêt pédagogique du test en aveugle est très important à mon avis. Notons que c'est cet effet pédagogique qui est parfois à l'origine du quiproquo entre les personnes ayant échoué à un test ABX et qui acquierent l'intime conviction qu'il n'y a pas de différence entre les appareils A et B qu'ils testaient et ceux qui disent que "mais non on ne peut pas tirer de conclusion d'un ABX raté". Ce n'est pas l'ABX raté qui a emporté l'intime conviction de l'auditeur, c'est la disparition de la différence quand il est passé en aveugle. Ce n'est donc pas une conclusion d'une expérience, c'est moins fort. C'est une intime conviction, valable uniquement pour l'auditeur qui a été testé. Et qui en tant que telle, dans l'absolu, ne vaut pas plus, mais pas moins, que l'intime conviction de celui qui entend des différences entre A et B mais qui n'a jamais fait de test en aveugle. Pour certains, dont moi, cependant, cette intime conviction est plus convaincante. Mais c'est personnel, et je ne peux pas l'imposer. Et c'est une conclusion (A n'est pas différent de B) susceptible encore de changer car liée aux circonstances du test. Souvent on la réduit en : "Finalement A est bien moins différent de B que ce que je pensais, et du diable si j'arrive à trouver un jour une différence entre A et B".

Merci à ceux qui ont lu jusque là, et merci à Herve s'il veut bien donner son aval pour l'encadré.

*Pour simplifier je suppose qu'il n'y a que des succès et que s'il y aun seul échec dans la série on arrête le test : j'imagine un protocole très strict pour simplifier et faciliter la compréhension. Mais il est tout à fait possible de calculer le pourcentage de "certitude" si l'auditeur a, par exemple, fait 33 identifications correctes sur 35.

» 18 Oct 2009 13:53

wald a écrit:On a dit et répété que la presse audio tient dans son ensemble pour acquises des différences parfois importantes entre ces appareils ou accessoires et qu'elle a, de mon point de vue, formaté une génération entière. Le principal intérêt de l'ABX est donc purement probatoire - que celui qui a entendu la différence le prouve - et ce n'est pas rien.

Entièrement d'accord avec Wald, c'est un fait difficilement contestable.Oui, la presse hifi a formaté les générations nées à la lecture des dites revues à partir du milieu des années 1970.

» 18 Oct 2009 13:57

Pio2001 a écrit:Il faudrait déjà pour avoir la même chose que dans le vin, qu'un salon de hifi réunisse des auditeurs, et que tous les auditeurs soient invités à noter les appareils présentés.
Il serait ensuite naturel de procéder aux notations en aveugle.

Cela a déjà été fait au moins par deux fois au défunt Festival du son à Paris.

Par Quad lors de la sortie du 405 : il s'agissait de l'expérience "un fil droit avec du gain". M. Walker, fondateur de Quad, avait mis l'expérience au point.

Par BASF : il s'agissait de comparer un CD et sa copie sur mini cassettes.

Des milliers de visiteurs ont participé à ces deux tests : les résultats furent édifiants quand ils ont été publiés.