Modérateurs: Modération Forum Haute-Fidélité, Le Bureau de l’Association HCFR • Utilisateurs parcourant ce forum: aventuree, francis2A, leatherface12, SCUDERIA et 107 invités

Discussions sur le matériel Haute-Fidélité

Test en aveugle

Message » 20 Oct 2009 17:11

corsario a écrit:Pourquoi dis-tu "à défaut d'arguments", tu n'as pas l'impression que j'ai passé plusieurs pages à t'en donner des arguments ? A passer tu temps, mon temps, à essayer de te faire comprendre. Avec des arguments. Avec de la logique. Parce que j'ai cru que tu voulais réellement comprendre. Et que tu as arrêté la discussion quand tu n'as plus su quoi dire. Je n'ai pas arrêté de donner des arguments. Et toi tu t'en fiches. On passe du temps pour t'expliquer et au bout d'un moment tu pars en live et tu joues les martyrs. Ca va deux minutes hein :roll: ...

Tu n'étais pas visé, n'en rajoute pas, stp. ^^
Je manque de temps, là, cause boulot, mais je reviendrais reprendre le côté constructif, t'inquiète.

La configuration dans mon profil


And the right will prevail, all our troubles shall be resolved
We have faith in the Lord, unless there's money or sex involved
(Frail Grasp On The Big Picture)
Avatar de l’utilisateur
Themisto
Membre HCFR
Membre HCFR
 
Messages: 4648
Inscription Forum: 16 Mai 2008 14:02
Localisation: Montpellier
  • offline

Message » 20 Oct 2009 18:01

corsario a écrit: Sinon, pour rebondir sur un ancien message de Herve, je voulais dire que le test 'menteur' en A contre A peut quand même avoir lieu en ABX. En fait c'est la partie préliminaire de l'ABX qui serait intéressante. Et la partie préliminaire de l'ABX est souvent une espèce de test en aveugle "classique".

Imaginons : on prend deux platines (les mêmes), sauf que l'on habille l'une de plaqué OR, on lui donne un look haut de gamme (...), Tout ça dans le seul but de tromper l'auditeur (d'où le titre de 'test menteur').

Si on passe directement à l'ABX on n'apprend rien : le test sera raté, et on dira qu'on ne peut rien conclure (c'est la raison pour laquelle Herve disait qu'on ne pouvait pas utiliser un test ABX pour un test menteur). Par contre on peut commencer l'ABX par un test en non aveugle : on égalise les niveaux et on demande à l'auditeur ses impressions. Si l'auditeur est facilement impressionnable (comme nous l'avons tous été) et/ou est sensible à la suggestion, il entendra normalement une nette amélioration à l'écoute de la platine maquillée.(...) Et chapeau aux auditeurs qui dès le départ déclareront ne pas entendre de différences.


Au début de ce fil j'avais suggéré des tests menteurs très souvent pratiqués en oenologie (pardon, on se répète sur un forum, c'est fatal) et rappelé que le lien visé en tête du topic par Oryzon est consacré à un test menteur que l'on doit compléter de cette passionnante étude de l'INRA dont le lien a déjà été donné à cette page. Ce type de test est remarquable par son aspect pédagogique, notamment pour les participants. Mais comment le réaliser dans la mesure où il repose sur petite duperie qui ne peut s'organiser en public comme les Kangourous ?
wald
 
Messages: 1983
Inscription Forum: 07 Avr 2008 9:40
  • offline

Message » 20 Oct 2009 18:07

... mais si la duperie est organisé à grande echelle ! je te laisse deviner son nom. :mdr: :wink:


Interessantes ces histoires de stats. je suis d'accord avec le point 1 d'herve mas pas avec le second. Prouver une diff (entre des câbles par ex) statistiquement sigfnificative avec une grande population (sans biais de recrutement), le tout sans tests reussis individuellement... ... pourquoi pas, c'est vrai que ça fonctionne sur le papier. Mais amha, ça ne ferai que prouver la faible influence des câbles. Et si on soumet cette population à un test qualitatif sur la même comparaison, on risque d'avoir une répartition joliment aléatoire des réponses ....
Dernière édition par Mahler le 20 Oct 2009 19:20, édité 4 fois.
Mahler
 
Messages: 12950
Inscription Forum: 19 Mar 2006 18:27
  • offline

Message » 20 Oct 2009 18:08

... mais si la duperie est organisé à grande echelle ! je te laisse deviner son nom

Tu parles des élections, là ? :mdr:

La configuration dans mon profil


And the right will prevail, all our troubles shall be resolved
We have faith in the Lord, unless there's money or sex involved
(Frail Grasp On The Big Picture)
Avatar de l’utilisateur
Themisto
Membre HCFR
Membre HCFR
 
Messages: 4648
Inscription Forum: 16 Mai 2008 14:02
Localisation: Montpellier
  • offline

Message » 20 Oct 2009 18:16

aussi :mdr:
Mahler
 
Messages: 12950
Inscription Forum: 19 Mar 2006 18:27
  • offline

Message » 20 Oct 2009 22:57

Je vais essayer de répondre aux commentaires sur l'exemple que j'ai donné.

Je suis assez d'accord avec Pio, on peut considérer cela comme du cherry picking, du moins dans l'esprit sur le fait que je change de test parce que cela m'arrange. D'un autre côté, on ne peut pas dire que l'analyse avec la procédure abxienne utilise un test de grande sensibilité. De plus, mon analyse est plus "riche" car elle prend en compte chacun des résultats pris individuellement. Mais je retiens l'argument (qui me semble d'autant plus valable que je me l'étais faite à moi-même, et que je me suis souvent battu contre le cherry picking dans ma vie professionnelle antérieure).

Il y a une autre critique que l'on peut faire à mon analyse mais qui curieusement ne semble pas avoir été formulée par les autres participants. En "poolant" les réponses, je pars du principe que chaque réponse est indépendante et a la même valeur. Autrement dit quelle est la probabilité dans mon exemple de trouver 291 bonnes réponses lorsque l'on lance une pièce 480 fois - ou si on est paresseux de lancer 480 pièces une seule fois-. Lorsqu'on lance 480 pièces d'un coup, on part du principe que toutes les pièces sont identiques c'est à dire que la probabilité que la pièce 24 de tomber sur pile est égale à celle de la pièce 125 (et égale à 0.5). Or, dans mon exemple, cela n'est pas le cas car il y a seulement 30 sujets qui testent, autrement dit non pas 480 pièces à peu près identiques mais 30 pièces dont on sait AU DEPART ET A PRIORI QU'ELLES SONT CLAIREMENT DIFFERENTES. Il existe donc un "effet-sujet" qui doit être testé (dans les essais cliniques on appelle cela un "effet centre" -terminologie se rapportant à centre hospitalier ou centre d'essai où sont généralement effectuées les études-). C'est un domaine qui est complexe à la frontière entre la méthodologie et la statistique.

Dans le cadre du pooling (domaine qui plait tant à Wald), on peut les différencier entre deux sortes, le pooling interne (données appartenant à la même étude, comme dans mon exemple) et le pooling externe (on combine des résultats d'études différentes). Cette technique qui est complexe (qui s'apparente à la méta-analyse) a fait l'objet de discussions passionnées entre experts cliniciens, méthodologistes et statisticiens (milliers de pages dans les revues spécialisées). Pour pratiquer une méta-analyse, un consensus existe sur le fait que la méthodologie de chaque essai doit être très proche, les produits comparés identiques (ou dans une même famille pharmacologique), le nombre de sujets suffisant etc. De toute façon même une méta-analyse bien faite sera considérée moins robuste dans ses conclusions qu' une étude qui aboutirait aux mêmes résultats. Dans le cas qui nous occupe, je ne recommanderai à quiconque de procéder à une méta-analyse avec les procédures ABX.

Je ne suis pas sûr d'avoir bien compris l' objection de Mahler quand il parle d'un grand nombre de sujets dans mon exemple. Dans celui-ci, j'avais envisagé seulement 30 sujets avec 16 évaluations par sujet. Il me semble que le coût d'organisation, de mise en place et d'analyse d'un essai de ce type serait largement à la portée d'un constructeur sérieux (15-20000 Euros?). On est bien loin de ce qui se passe dans les études cliniques avant commercialisation d'un médicament pour lesquelles des milliers de patients sont enrôlés avec un coût global de développement de l'ordre de 500 millions de dollars
herve25
 
Messages: 89
Inscription Forum: 15 Aoû 2009 13:33
  • offline

Message » 20 Oct 2009 23:26

oui j'ai confondu nombre de sujets et nombre dévaluations. :oops: :mdr:
Mahler
 
Messages: 12950
Inscription Forum: 19 Mar 2006 18:27
  • offline

Message » 20 Oct 2009 23:27

wald a écrit:Pourquoi les objection de Pio sur en substance "si on change de méthode, ça ne marche plus" ? (et puis c'est quoi le cherry picking ? :o :wink: ):


Si on change de méthode après coup, cela ne marche plus. Tout simplement parce qu'on n'est plus en aveugle. On connaît tous les résultats. Trop facile de choisir 15 bonnes réponses parmi 30 quand on les connaît déjà, et dire regardez ! Si on enlève les 15 réponses fausse, il reste 15 bonnes réponses sur 15 !

C'est un peu la méthode des voyants : si on ne compte pas les prédictions fausses, il n'en reste que des vraies. Il suffit d'une bonne dose d'imagination pour rattacher notre picking à un paramètre quelconque. Par exemple on peut voir qu'on obtient un score significatif si on poole les réponses des auditeurs dont le chiffre du mois de la date de naissance est égal à la quatrième décimale de pi, au chifre des unités de la hauteur de la pyramide de Khéops (exprimée en coudées), ou au nombre de portes du temple de Ragnarouf-le-maudit.

Il est beaucoup plus sain de prévoir le coup à l'avance : on se dit que quand ce sera fini, on poolera pour voir ce que ça donne, et qu'on divisera par deux le risque d'erreur maximal permis puisqu'on prévoit deux analyses en partie indépendantes.
Evidemment, quand on a 291 sur 480, on ne peut pas avancer l'argument du cherry picking, car même dans ce cas, l'obtention d'un tel score par pure chance reste complètement invraisemblable.

corsario a écrit:Je veux bien la formule ou le logiciel que tu utilises stp, le mien (http://www.quantitativeskills.com/sisa/distributions/binomial.htm) arrive à ses limites (6 chiffres après la virgule) quand les probas sont très petites.


J'ai tout bêtement mis la formule dans ma calculette TI-92 :
Code: Tout sélectionner
bino(x,y)
sum(seq(nCr(y,i),i,x,y))/2^y


Elle fait du calcul formel, ce qui lui permet de garder un résultat exact tout du long. Pour l'opération bino(291, 480), le calcul a pris plus d'une minute, et le résultat exact était une fraction avec un nombre de plus de cent chiffres au dénominateur.
Pio2001
Contributeur HCFR 2019
 
Messages: 9089
Inscription Forum: 07 Oct 2003 12:50
Localisation: Neuville-sur-Saône
  • offline

Message » 20 Oct 2009 23:49

herve25 a écrit:Il y a une autre critique que l'on peut faire à mon analyse mais qui curieusement ne semble pas avoir été formulée par les autres participants. En "poolant" les réponses, je pars du principe que chaque réponse est indépendante et a la même valeur.


Très juste ! J'avais oublié ça. Pourtant, en mettant au point le protocole du premier test en aveugle, les câbles de modul à Lyon, j'avais pris en compte le pire effet de groupe possible : un auditeur répond au hasard et les autres, consciemment ou non (par effet Clever Hans dans le pire des cas), copient toutes ses réponses à l'identique ! Je vous dis pas l'effet sur les résultats poolés ! Avec ça, on peut prouver que ma grand-mère était une princesse zoulou.

La solution la plus évidente était de faire passer tous les auditeurs seuls les uns après les autres en leur interdisant de communiquer jusqu'à ce que le dernier soit passé.

Mais je tenais absolument à permettre une conclusion positive dans le cas un un seul auditeur entende la différence. C'était indispensable pour une publication sur le forum. Cela imposait de toutes façons un nombre assez grand d'essais par auditeur.
Ce nombre étant fixé, j'avais choisi de permettre aux auditeurs de communiquer pendant le test, ce qui à mon avis peut avoir un effet très bénéfique sur le taux de faux négatifs. En contrepartie, je m'interdis de pooler les résultats.

Je pense que le bénéfice sur le taux de faux négatifs de l'émulation entre auditeurs, si on les encourage à s'entraîner et à apprendre les uns aux autres à reconnaître la différence, et si on les incite à être extrêmement prudents dans leurs réponses, peut compenser largement l'effet négatif de l'interdiction de pooler.

Pour que cela marche, il faut que chacun cherche à toux prix à atteindre le zéro fautes, même si en pratique on n'y arrive pas. Pour cela, l'audition humaine est telle qu'il est nécessaire de révéler les réponses au fur et à mesure que chaque test avance, afin de s'auto-corriger et de redoubler d'attention à la moindre erreur.

Cela demande beaucoup de patience pour chaque auditeur, mais je pense que c'est la bonne méthode pour les petites différences en audio, compte tenu des innombrables échecs cuisant dont fourmille la littérature électronique. Inutile de refaire les échecs que d'autres ont faits avant nous. Il faut améliorer les performances des auditeurs.
Dernière édition par Pio2001 le 21 Oct 2009 0:07, édité 1 fois.
Pio2001
Contributeur HCFR 2019
 
Messages: 9089
Inscription Forum: 07 Oct 2003 12:50
Localisation: Neuville-sur-Saône
  • offline

Message » 21 Oct 2009 0:02

Donc une conclusion majeure : il est interdit de pooler si les auditeurs n'étaient pas totalement isolés les uns des autres.

Exemple : 10 auditeurs passent ensemble un test ABX entre deux sources si proches l'une de l'autre qu'ils est impossible de les distinguer dans les conditions du test. Pas de bol, l'un d'eux, sourd comme un pot, trouve 10 bonnes réponses sur 15. Ce n'est pas exceptionnel, cela arrive une fois sur 7.
Et là, catastrophe, cet auditeur est un nerveux. Il ne tient pas en place. Il tape du pied sans arret, et se tortille comme ver sur son siège. Par un effet bizarre mais tout-à-fait possible, il arrive à influencer les 9 autres. Par exemple il cesse de gigoter quand il entend ce qu'il croît être A. Du coup, ça fait moins de bruit, et les autres entendent tous mieux. Comme ils croyaient tous que A était meilleur, ils pensent entendre A quand l'auditeur nerveux croît - par pur hasard - que c'est A qui joue, et tous répondent exactement la même chose.

Tout le monde a donc un score de 10/15. Personne n'a réussi l'ABX.

On poole les résultats pour voir : 100 bonnes réponses sur 150, soit un succès avec une probabilité d'erreur de 0.002 % !

Si par surcroît de malchance on demande à chacun d'annoncer son score à voix haute sans comparer les réponses, on ne s'aperçoit même pas que tout le monde a répondu la même chose.
Pio2001
Contributeur HCFR 2019
 
Messages: 9089
Inscription Forum: 07 Oct 2003 12:50
Localisation: Neuville-sur-Saône
  • offline

Message » 21 Oct 2009 12:41

Pio2001 a écrit:Donc une conclusion majeure : il est interdit de pooler si les auditeurs n'étaient pas totalement isolés les uns des autres (...)


Ca paraît cohérent. Je me souviens qu'au cours du test de câbles chez GrandX j'avais modifié une réponse du fait qu'on passait le test à plusieurs ensemble et que les mimiques d'un auditeur m'avaient convaincu de réécouter... Après ça d'ailleurs j'ai eu conscience que je ne savais plus trop différencier A et B et que je répondais plus ou moins n'importe comment, si bien que j'ai abandonné le test en cours (ce ne fut pas la seule erreur méthodologique si tu te souviens, Pio, fallait bien commencer par un bout :wink: ...).

Toutefois la rigueur de la règle n'est elle pas contradictoire avec le fait qu'on a aussi observé qu'en signalant l'extrait et le moment où la différence apparaissait, on facilitait la réussite du test ? Après tout, si chacun réalise son test seul face à la machine, que changent les discussions antérieures au test proprement dit ?

Sinon, bien compris l'effet pervers de la pratique du Cherry Picking.

Je reviens sur l'ABX et le pooling (c'est vrai que ça me botte :D mais c'est parce que la proportion de négatifs est un repoussoir pour beaucoup et une interrogation pour moi, et que je découvre ce dont chacun a l'intuition et qu'on pourrait décrire ainsi : si plusieurs personnes s'approchent du score de validation, ça doit bien signifier quelque chose tout de même !).

Les ABX des kangourous rassemblent 4 à 6 auditeurs en général ce qui est le maximum rasionnable mais assez faible comparé aux 30 sujets cités par Hervé pour son exemple. Mais je crois comprende qu'à partir d'un certain seuil de réponses positives (comment l'estime ou le calcule-t-on ?) on peut pooler un échantillon aussi faible que 4 à 6 sujets.

Corsario est OK sur ce point avec la réserve que les sujets doivent être bons et quelques autres recommandations.

Hervé, Pio, Ohl, Jacbru (sans exclusive), êtes vous OK avec ça car ce serait peut une évolution à envisager des tests des kangourous (Syber si tu nous lis encore...) qui, justement, commencent à rassembler des habitués. J'observe que Corsario et Hervé au moins convergent sur l'analyse qu'on doit envisager a priori un certains nombre de paramètres et a poteriori les résultats, eux mêmes compilés sur plusieurs séances. Celà paraît relativement complexe mais non insurmontable et donnerait à ces séances un intérêt supplémentaire il me semble.
wald
 
Messages: 1983
Inscription Forum: 07 Avr 2008 9:40
  • offline

Message » 21 Oct 2009 12:55

Pio2001 a écrit: Puisqu'on parle de matrix-hifi, on voit qu'ils répertorient des dizaines de tests ABX. Comme la plupart sont négatifs, et que leur condition de succès est une probabilité d'erreur de type 1 inférieure à 5%, on peut dire qu'il est probable que certains de leur succès sont de faux succès.


Soit, mais est ce que tu es Ok avec le fait que MATRIX ne donne généralement pas le détail des réponses et ne pratique aucun pooling ? Dans l'affirmative, n'est ce pas une insuffisance qui, à l'inverse, masque peut être des ABX positifs et à la limite discrédite un peu ce site ?

@ Hervé : quoique tu acceptes volontier d'en discuter sur le plan méthodologique et que tu ne sembles pas remettre en cause le principe, tu n'est visiblement pas conquis par les ABX en audio. Quelles en sont les raisons ? (sans parler à ce stade du fait qu'il existe d'autres types de tests en aveugle qui apportent d'autres enseignements, ce que nous n'avons toujours pas vraiment abordé) ?

Question subsidiaire : existe-t-il, sur la question probatoire (différence ou pas différence), une alternative ?
wald
 
Messages: 1983
Inscription Forum: 07 Avr 2008 9:40
  • offline

Message » 21 Oct 2009 13:13

Matrix, un site réellement "objectiviste" (subjectivement parlant, bien sûr)...
ghozze
 
Messages: 1090
Inscription Forum: 03 Jan 2008 12:12
  • offline

Message » 21 Oct 2009 13:22

wald a écrit:Toutefois la rigueur de la règle n'est elle pas contradictoire avec le fait qu'on a aussi observé qu'en signalant l'extrait et le moment où la différence apparaissait, on facilitait la réussite du test ? Après tout, si chacun réalise son test seul face à la machine, que changent les discussions antérieures au test proprement dit ?


il y a une différence entre la phase d'entrainement, où là tout est permis, on communique, on se donne des conseils, etc...
Et la phase de test proprement dit, où là Pio a raison on doit être tout seul (ou en tout cas sans influence extérieure).


wald a écrit:Je reviens sur l'ABX et le pooling (c'est vrai que ça me botte :D mais c'est parce que la proportion de négatifs est un repoussoir pour beaucoup et une interrogation pour moi, et que je découvre ce dont chacun a l'intuition et qu'on pourrait décrire ainsi : si plusieurs personnes s'approchent du score de validation, ça doit bien signifier quelque chose tout de même !).

Les ABX des kangourous rassemblent 4 à 6 auditeurs en général ce qui est le maximum rasionnable mais assez faible comparé aux 30 sujets cités par Hervé pour son exemple. Mais je crois comprende qu'à partir d'un certain seuil de réponses positives (comment l'estime ou le calcule-t-on ?) on peut pooler un échantillon aussi faible que 4 à 6 sujets.

Corsario est OK sur ce point avec la réserve que les sujets doivent être bons et quelques autres recommandations.


Ce n'est pas une réserve, c'est du bon sens. Si tu pooles 4 à 6 sujets qui sont mauvais ça ne va pas te donner grand chose :wink:
tu peux même ne pooler qu'un seul sujet : celui qui a réussit le test.

Maintenant sur l'estimation du seuil :

Il faut d'abord se fixer un seuil qui sera ce qu'on appelle la 'certitude'. Grosso modo on peut établir ce seuil à la probabilité équivalente à réussir un seul test à 7/8 : on avait moins de 3% de chance d'avoir réussi ce test par hasard. Bon, c'est un peu élevé.

Aller, je propose de fixer le seuil de "certitude" à tout résultat qui avait moins de 1% de chance d'arriver par hasard.

Tout ce qui sera réussi avec moins de 1% de chance que ce soit par hasard sera réputé être certain.
(est-ce que tout le monde est d'accord sur ce seuil ?). Attention, il faut tout considérer, tests passés sur le même thème inclus. Mais seulement les tests fait par le ou les individus considérés dans le résultat gagnant ((ce point est discutable).

C'est là que ça se complique : la phrase au dessus veut dire que si on poole tous les tests fait par le testeur ou l'équipe vainqueur, on doit rester sous les 1%.

Exemple : 3 auditeurs font des tests. Il y en a un qui réussit un 15/15. Pour savoir si c'est valable il faut pooler tous ses tests (sur le même suejt) qu'il a fait depuis le début et voir si il reste en dessous des 1%. C'est probable (mais pas sûr).

On avait calculé dans l'autre sujet que jusqu'à 10000 essais au total, il fallait faire un 21/21 pour être sûr et certain d'être en dessous de 1% (0.9% exactement).

De manière pratique, si on est sûr de ne jamais avoir fait plus de 10000 essais au total, il est suffisant (mais pas forcément nécessaire) de réussir un 21/21 pour être au dessus de toute critique. 21/21 c'est un maximum. Ca permet de ne pas compter ses essais. Si on veut avoir besoin de faire moins, il faut compter ses essais. Par exemple si on ne fait que 7 essais en tout et qu'on réussit du premier coup, 7/7 suffit à être sous les 1%. Mais il ne faut pas rater son coup. En gros, plus on accumule d'essais ratés, plus le score a réussir pour être globalement sous les 1% devient sévère.

Le même principe s'applique pour pooler les équipes. Si tu veux être au plus juste, tu pooles les meilleurs résultats, tu comptes combien chaque auditeur avaient fait de tests ratés avant, et tu regardes si globalement tu es en dessous de 1%.

Donc, suivant les cas, compiler les résultats sur plusieurs séances peut permettre d'arriver à moins de 1% ou pas.
Dans la réalité, si on arrive par exemple à 0.9% en compilant, il est raisonnable de penser que si les auditeurs se concertent un peu, échangent leur expérience et s'entrainent, il y a en aura au moins un qui réussira finalement un 15/15 qui permettra, globalement en poolant, d'arriver à 0.01% (par exemple) pour enlever toute équivoque, ou même qu'il réussira un 21/21 qui permettra de ne considérer que ce seul résultat pour valider la différence et de ne pas avoir besoin de pooler.



herve25 a écrit:Il y a une autre critique que l'on peut faire à mon analyse mais qui curieusement ne semble pas avoir été formulée par les autres participants. En "poolant" les réponses, je pars du principe que chaque réponse est indépendante et a la même valeur. Autrement dit quelle est la probabilité dans mon exemple de trouver 291 bonnes réponses lorsque l'on lance une pièce 480 fois - ou si on est paresseux de lancer 480 pièces une seule fois-. Lorsqu'on lance 480 pièces d'un coup, on part du principe que toutes les pièces sont identiques c'est à dire que la probabilité que la pièce 24 de tomber sur pile est égale à celle de la pièce 125 (et égale à 0.5). Or, dans mon exemple, cela n'est pas le cas car il y a seulement 30 sujets qui testent, autrement dit non pas 480 pièces à peu près identiques mais 30 pièces dont on sait AU DEPART ET A PRIORI QU'ELLES SONT CLAIREMENT DIFFERENTES. Il existe donc un "effet-sujet" qui doit être testé (dans les essais cliniques on appelle cela un "effet centre" -terminologie se rapportant à centre hospitalier ou centre d'essai où sont généralement effectuées les études-). C'est un domaine qui est complexe à la frontière entre la méthodologie et la statistique.


je ne suis pas tout à fait d'accord : on teste contre le hasard. Et le hasard a toujours une probabilité de 0.5 (entre deux possibilités). Donc je ne vois pas le problème ici de considérer 291 sur 480 et de calculer la probabilité que ce résultat ait été acquis au hasard. On ne calcule pas des trucs sur les individus, on calcule la probabilité que tel ou tel résultat soit arrivé au hasard...

(on suppose évidemment que le test s'est passé de manière correcte et que les testeurs ne se sont pas influencés entre eux; car c'est là-dessus que Pio a répondu à Hervé, un peu hors-sujet il me semble).

Donc je maintiens que la probabilité que le résultat de 291/480 dans cette expérience arrive par hasard était de 1 chance sur 500000 (je reprends le chiffre de Pio) et que donc si c'était le premier test sur ce sujet pour tous ces auditeurs, alors la différence serait tout à fait validée dans ce cas (on est bien en dessous de 1% de chance que ça soit arrivé par hasard, bien bien en dessous !)


Pio2001 a écrit:
wald a écrit:Pourquoi les objection de Pio sur en substance "si on change de méthode, ça ne marche plus" ? (et puis c'est quoi le cherry picking ? :o :wink: ):


Si on change de méthode après coup, cela ne marche plus. Tout simplement parce qu'on n'est plus en aveugle. On connaît tous les résultats. Trop facile de choisir 15 bonnes réponses parmi 30 quand on les connaît déjà, et dire regardez ! Si on enlève les 15 réponses fausse, il reste 15 bonnes réponses sur 15 !


Si, en fait on peut faire du cherry picking, sous certaines conditions : tant qu'on ne ne sépare pas les réponses d'un individu : par exemple si 3 individus ont échoués et qu'un individu pour son premier test a fait 15/15, je peux ne considérer (choisir) que cet individu parmis les 4.
A l'intérieur des résultats d'un individu normalement il faut tout considérer. Mais pour simplifier les calculs, comme vu au dessus, je peux aussi extraire une série de 21 succès à la suite chez cet individu et dire qu'il a réussi (si cette série de 21 à la suite fait partie d'une série globale de moins de 10000 tests). Alors je suis sûr qu'il y avait moins de 1% de chance que cette individu réussisse une série de 21 à la suite dans sa série de 10000 (le à la suite est fondamental ici).
corsario
 
Messages: 2396
Inscription Forum: 01 Fév 2005 18:39
Localisation: Paris
  • offline

Message » 21 Oct 2009 13:25

(Syber si tu nous lis encore...)



Ah, si on m'appelle ... 8)


SyberDiva !





Plus sérieusement :lol: :wink: ...

Je ne suis pas contre l'agrégation des résultats obtenus par plusieurs testeurs si on définit le protocole d'écoute en conséquence. Pour rebondir sur la remarque de Wald, je ne suis pas contre une phase d'écoute collective qui présente l'avantage de l'émulation entre participants. Pour ma part, si il y a bien une chose que ces ABX m'ont fait réaliser, c'est à quel point l'écoute est culturelle. A plusieurs, on peux considérer que dans une certaine mesure on additionne les référents culturels a un instant et a un endroit donné et on maximise probablement les chances de découvrir des différences entre A et B ; c'est en tout cas ainsi que j'interprète l'expérience retirée des Kangourous. En revanche, si il y a un point du protocole sur lequel je serai vigilant, c'est la façon dont se déroule la phase de test proprement dite : le testeur doit être seul face à sa décision.
syber
 
Messages: 12598
Inscription Forum: 30 Juil 2005 15:07
  • offline


Retourner vers Discussions Générales

 
  • Articles en relation
    Dernier message