On ne peux pas nier qu'il y a des choses qui se mesurent et qui ne s'entendent pas, mais y a-t-il des choses qui s'entendent et qui ne se mesurent pas ?
La question a très récemment animé un débat entre chercheurs scientifiques, (2BDecided, auteur d'une thèse en psychoacoustique, Audible!, chercheur en chimie, et d'autres intervenants ayant un solide bagage scientifique...
http://www.hydrogenaudio.org/forums/ind ... t&p=232153
Mais revenons à la question posée :
OUI, il existe un outil de mesure applicable à tous les tweaks audio ! Il s'agit du test en double aveugle, lorsqu'il est accompagné d'une analyse statistique rigoureuse permettant dévaluer la pertinence des résultats obtenus par les sujets du test.
On se pose ici la question de savoir si un facteur donné : câble, pied d'enceinte, etc, a un effet ou non sur le son, sans pour l'instant se préoccuper de savoir si cet effet est bénéfique.
Un test de type ABX peut nous donner une réponse.
Dans ce test, l'auditeur se voit présenter trois sources. A et B sont les références. Il s'agit de la chaîne hifi avec et sans le tweak. X est la source cachée. Il peut s'agir de A ou de B, c'est à l'auditeur de le deviner en comparant X à A et à B.
Seulement si l'auditeur dit que "X est A", et que c'est effectivement A, qu'est-ce que ça prouve ?
Rien, bien sûr ! Si vous tirez à pile ou face dans mon dos, et que j'affirme que c'est face, et que je gagne, cela ne démontre pas l'existence de mes dons para-psychiques qui me permettent de voir dans mon dos. C'est juste un coup de chance, rien de plus !
C'est pourquoi une analyse statistique est nécessaire.
Imaginons qu'après que l'auditeur ait donné sa réponse, on recommence le test, en tirant X au sort à nouveau, 15 fois. Si l'autiteur donne la bonne réponse seize fois au total, qu'est-ce que cela prouve ? Est-ce que cela peut être un coup de chance ?
Oui, c'est possible, et on peut calculer la probabilité pour que cela se produise. A chaque test, il y a une chance sur deux d'obtenir la bonne réponse, et on fait seize tests indépendant. La probabilité d'avoir tout bon par hasard est donc de 1/2^16, soit 1/65536.
Autrement dit, si aucune différence n'est audible, l'auditeur aura tout bon une fois sur 65536 en moyenne.
On peut donc choisir le nombre d'essais à réaliser en fonction du tweak testé. Le but étant d'obtenir une probabilité de succés inférieure à la vraisemblance du tweak.
Par exemple, si on compare deux amplis, il est probable qu'ils n'aient pas le même son. On peut se contenter de répéter le test 7 fois. Il y aura une chance sur 128 d'obtenir un "faux succès". En statistique, on appelle les "faux succès" des "erreurs de type I". Plus on répète le test un grand nombre de fois, plus on élimine le risque d'erreurs de type I.
Si maintenant on place une amulette porte bonheur à côté du lecteur de CD. Il n'y a aucune raison pour que cela change le son. On peut alors répéter le test 40 fois. La probabilité de succès est alors de un sur mille milliards ! Si jamais cela arrive, il y a forcément une explication : l'auditeur entend l'opérateur déplacer l'amulette, ou alors l'opérateur met toujours plus de temps à lancer la lecture après avoir rangé l'amulette... ou bien l'auditeur perçoit une différence d'éclairage à travers ses paupières si c'est une grande amulette sombre, ou bien il perçoit son odeur lorsqu'elle est posée vers le lecteur...
On note p la probabilité d'obtenir un succès par hasard. On considère généralement qu'un résultat dont la valeur p est inférieur à 0.05 (un sur vingt) est à prendre au sérieux, et que p < 0.01 (un sur cent) est un résultat tout à fait positif. Il faut toutefois nuancer en fonction du contexte. On a vu que pour des tweaks invraisemblables, comme l'amulette, il est nécessaire d'obtenir un p vraiment très petit, parce que qu'entre la probabilité pour que l'amulette fonctionne (disons un sur un milliard, par exemple) et la probabilité de réussir par hasard (on choisir souvent un sur cent), le choix est vite fait : le test a réussi par hasard !
Autre exemple où les nombres nous trompent, si on teste 20 câbles, un par un, pour savoir s'ils ont un effet sur le son, et si on considère que p < 0.05 est un succès, alors, dans le cas où aucun câble n'a d'effet sur le son, puisqu'on fait 20 tests, il faut quand même s'attendre en toute logique à avoir environ un succès dû au hasard parmi les 20 tests ! Dans ce cas de figure, on ne peut absolument pas dire que le câble en question colore le son avec une probabilité de 95 %, même si sa valeur p est inférieur à 5 %, puisque de toutes façons, on attendait ce résultat. Le test a échoué, tout simplement.
Mais les analyses statistiques ne se limitent pas à une simple puissance de 2. Si par exemple on obtient 14 bonnes réponses sur 16, que se passe-t-il ? Eh bien on peut parfaitement calculer la probabilité que cela se produise, mais attention, ce qu'il nous faut, c'est la probabilité d'avoir non pas exactement 14/16, mais au moins 14/16, c'est à dire la probabilité d'avoir 16/16, plus celle d'avoir 15/16, plus celle d'avoir 14/16.
Une table Excel donne toutes les probabilités dont nous avons besoin :
http://www.kikeg.arrakis.es/winabx/bino_dist.zip Elle se base sur une simple distribution binômiale.
A présent, comment mettre en oeuvre le test d'écoute, afin que son résultat, s'il est positif, soit vraiment convaincant ? Il y a de nombreuses règles à respecter, si vous ne voulez pas en cas de succès voir tous vos détracteurs vous rire au nez, et avec raison.
Règle numéro 1 : il est impossible de prouver que quelque chose n'existe pas. La charge de la preuve est du côté de celui qui affirme entendre une différence.
Si vous pensez qu'un câble colore le son, à vous de le prouver en réussissant le test. Quelqu'un qui prétend que les câbles n'ont pas de son ne peut rien prouver.
2. Le test doit être réalisé en double aveugle.
C'est la condition la plus difficile à remplir. Simple aveugle signifie que vous ne pouvez pas savoir si X est A ou B autrement qu'en l'écoutant. Double aveugle signifie que personne dans la pièce ou dans l'environnement immédiat ne peut savoir si X est A ou B, afin d'éviter toute influence possible, même inconsciente, sur l'auditeur. Cela complique realitivement les manipulations. Une tierce personne peut guider l'auditeur qui a les yeux bandés en dehors de la pièce pendant que la manipulation est effectuée. Des circuits commutateurs de très haute qualité ont été mis au point pour effectuer des tests ABX en double aveugle (
http://sound.westhost.com/abx-tester.htm ) : un microprocesseur tire X au sort, et une télécommande permet alors de le comparer à A et B à volonté.
3. Les valeurs de p données dans la table indiquée plus haut ne sont valables que si les deux conditions suivantes sont remplies :
-L'auditeur ne doit pas avoir connaissance de ses résultats, sauf si le nombre total de réponses est imposé avant le test.
...Sinon, il suffirait de regarder après chaque réponse son score, et de continuer jusqu'à ce que la valeur de p baisse par hasard.
-Le test est effectué pour la première fois. Et si ce n'est pas le cas, tous les résultats précédents doivent être pris en compte dans le calcul du total.
Sinon, il suffirait de recommencer la série de tests autant de fois que nécessaire pour obtenir, par hasard, une valeur de p aussi petite que souhaitée.
Corollaire : ne donnez que des réponses dont vous êtes absolument certain ! Si vous avez le moindre doute, ne répondez rien. Prenez votre temps. Faites des pauses. Vous pouvez interrompre le test et continuer les essais suivants un autre jour, mais surtout, n'essayez
jamais de deviner "à l'intuition". Si vous vous trompez, vous n'aurez plus jamais l'occasion de refaire le test, car on pourra toujours vous accuser de faire dire aux nombre ce que vous voulez, en "recommençant jusqu'à ce que ça marche" !
Bien sûr vous pouvez vous entraîner autant de fois que vous voulez pour de faux, à condition de le décider fermement avant. Si vous décidez que vous faites un test blanc pour vous exercer, et que vous avez 50/50, puis que vous ne parveniez plus à reproduire ce résultat, tant pis ! Les résultats des tests d'entraînement sont à jeter à la poubelle quels qu'ils soient, et les résultats des tests réels sont à conserver quels qu'ils soient.
Encore une fois, si vous prenez tout le temps nécessaire, fut-ce une semaine d'efforts pour une seule réponse, pour obtenir un résultat positif du premier coup, votre succès sera mathématiquement
indiscutable ! Seul votre installation hifi ou vos conditions de mise en aveugle pourront être contestés. Si par contre, en toute bonne foi, vous recommencez un test ayant échoué parce qu'il y avait trop de bruit lors de la première fois, ou parce que votre cable secteur a amélioré votre son depuis lors, vous pouvez être sûrs qu'il y aura toujours quelqu'un pour venir contester votre résultat au nom des lois de l'analyse statistique. Vous aurez fait tout ce travail en vain.
4. Le test doit être reproductible
N'importe qui peut publier des résultats mensongers. Par exemple si une personne vend des bibelots destinés à améliorer le son, genre de l'huile dont il faut enduire les boîtes des CD, ou la gaine des câbles, il peut très bien prétendre avoir réussi un test ABX douible aveugle avec p <0.00001, ne serait-ce que pour faire parler de son produit.
Si une personne réussit le test, d'autres doivent vérifier si c'est possible, en le réussissant à leur tour.
Nous avons vu ce que c'est qu'un test ABX avec le calcul de probabilité associé, qui est parfaitement adapté au test de trucs et astuces en hifi. Mais il ne s'agit que du B-A BA des tests statistiques.
Par exemple pour comparer la qualité des compresseurs MP3 et autres, on utilise dans les tests à plus grande échelle le principe ABC/HR (voir
http://ff123.net/abchr/abchr.html ), qui est bien plus perfectionné : on présente à chaque auditeur une paire de curseurs avec trois boutons pour chaque codec audio à évaluer. A et B sont l'original et le fichier encodé. L'auditeur ignore lequel est lequel. C est l'original qui sert de référence. Il doit donner à l'aide des curseurs une note de 1 à 5 pour A et B, l'original devant logiquement être noté 5.
Un calcul de probabilité permet alors non seulement de savoir si le codec dégrade le son de façon audible, mais également d'évaluer la qualité des codecs pour l'échantillon d'auditeurs ayant participé, et ce, toujours en aveugle, et toujours avec un calcul de probabilité permettant dévaluer la pertinence des résultats. Ces calculs, suivant ce que l'on souhaite obtenir, peuvent être réalisés par la méthode de Friedmann, par exemple (
http://www.graphpad.com/articles/interp ... edmans.htm ), qui privilégie le classement des échantillons testés sur un podium, ou encore ANOVA (
http://www.psychstat.smsu.edu/introbook/sbk27.htm ), qui indique mieux la qualité subjective perçue par les auditeurs sur l'échelle de 1 à 5.
Notez que ce genre d'analyse statistique est principalement utilisé en médecine, et que pour obtenir une autorisation de mise sur le marché en France, tout médicament doit faire la preuve de son efficacité en double aveugle (le médecin ignore s'il prescrit un placebo ou une vraie molécule), contre placebo (le médicament doit non seulement prouver qu'il agit, mais aussi qu'il agit mieux qu'un placebo, car un placebo seul agit), et le verdict est donné par des analyses telles que celles qu'on vient de voir. Il ne s'agit donc pas de méthodes inventées sur le pouce pour faire des tests en hifi. Il s'agit bien de méthodes universellement utilisées en recherche scientifique, et elle restent entièrement valables en hifi.