wald a écrit:Toutefois la rigueur de la règle n'est elle pas contradictoire avec le fait qu'on a aussi observé qu'en signalant l'extrait et le moment où la différence apparaissait, on facilitait la réussite du test ? Après tout, si chacun réalise son test seul face à la machine, que changent les discussions antérieures au test proprement dit ?
il y a une différence entre la phase d'entrainement, où là tout est permis, on communique, on se donne des conseils, etc...
Et la phase de test proprement dit, où là Pio a raison on doit être tout seul (ou en tout cas sans influence extérieure).
wald a écrit:Je reviens sur l'ABX et le pooling (c'est vrai que ça me botte
mais c'est parce que la proportion de négatifs est un repoussoir pour beaucoup et une interrogation pour moi, et que je découvre ce dont chacun a l'intuition et qu'on pourrait décrire ainsi : si plusieurs personnes s'approchent du score de validation, ça doit bien signifier quelque chose tout de même !).
Les ABX des kangourous rassemblent 4 à 6 auditeurs en général ce qui est le maximum rasionnable mais assez faible comparé aux 30 sujets cités par Hervé pour son exemple. Mais je crois comprende qu'à partir d'un certain seuil de réponses positives (comment l'estime ou le calcule-t-on ?) on peut pooler un échantillon aussi faible que 4 à 6 sujets.
Corsario est OK sur ce point avec la réserve que les sujets doivent être bons et quelques autres recommandations.
Ce n'est pas une réserve, c'est du bon sens. Si tu pooles 4 à 6 sujets qui sont mauvais ça ne va pas te donner grand chose
tu peux même ne pooler qu'un seul sujet : celui qui a réussit le test.
Maintenant sur l'estimation du seuil :
Il faut d'abord se fixer un seuil qui sera ce qu'on appelle la 'certitude'. Grosso modo on peut établir ce seuil à la probabilité équivalente à réussir un seul test à 7/8 : on avait moins de 3% de chance d'avoir réussi ce test par hasard. Bon, c'est un peu élevé.
Aller, je propose de fixer le seuil de "certitude" à tout résultat qui avait moins de 1% de chance d'arriver par hasard.Tout ce qui sera réussi avec moins de 1% de chance que ce soit par hasard sera réputé être certain.
(est-ce que tout le monde est d'accord sur ce seuil ?). Attention, il faut tout considérer, tests passés sur le même thème inclus. Mais seulement les tests fait par le ou les individus considérés dans le résultat gagnant ((ce point est discutable).
C'est là que ça se complique : la phrase au dessus veut dire que si on poole tous les tests fait par le testeur ou l'équipe vainqueur, on doit rester sous les 1%.
Exemple : 3 auditeurs font des tests. Il y en a un qui réussit un 15/15. Pour savoir si c'est valable il faut pooler tous ses tests (sur le même suejt) qu'il a fait depuis le début et voir si il reste en dessous des 1%. C'est probable (mais pas sûr).
On avait calculé
dans l'autre sujet que jusqu'à 10000 essais au total, il fallait faire un 21/21 pour être sûr et certain d'être en dessous de 1% (0.9% exactement).
De manière pratique, si on est sûr de ne jamais avoir fait plus de 10000 essais au total, il est suffisant (mais pas forcément nécessaire) de réussir un 21/21 pour être au dessus de toute critique. 21/21 c'est un maximum. Ca permet de ne pas compter ses essais. Si on veut avoir besoin de faire moins, il faut compter ses essais. Par exemple si on ne fait que 7 essais en tout et qu'on réussit du premier coup, 7/7 suffit à être sous les 1%. Mais il ne faut pas rater son coup. En gros, plus on accumule d'essais ratés, plus le score a réussir pour être globalement sous les 1% devient sévère.
Le même principe s'applique pour pooler les équipes. Si tu veux être au plus juste, tu pooles les meilleurs résultats, tu comptes combien chaque auditeur avaient fait de tests ratés avant, et tu regardes si
globalement tu es en dessous de 1%.
Donc, suivant les cas, compiler les résultats sur plusieurs séances peut permettre d'arriver à moins de 1% ou pas.
Dans la réalité, si on arrive par exemple à 0.9% en compilant, il est raisonnable de penser que si les auditeurs se concertent un peu, échangent leur expérience et s'entrainent, il y a en aura au moins un qui réussira finalement un 15/15 qui permettra, globalement en poolant, d'arriver à 0.01% (par exemple) pour enlever toute équivoque, ou même qu'il réussira un 21/21 qui permettra de ne considérer que ce seul résultat pour valider la différence et de ne pas avoir besoin de pooler.
herve25 a écrit:Il y a une autre critique que l'on peut faire à mon analyse mais qui curieusement ne semble pas avoir été formulée par les autres participants. En "poolant" les réponses, je pars du principe que chaque réponse est indépendante et a la même valeur. Autrement dit quelle est la probabilité dans mon exemple de trouver 291 bonnes réponses lorsque l'on lance une pièce 480 fois - ou si on est paresseux de lancer 480 pièces une seule fois-. Lorsqu'on lance 480 pièces d'un coup, on part du principe que toutes les pièces sont identiques c'est à dire que la probabilité que la pièce 24 de tomber sur pile est égale à celle de la pièce 125 (et égale à 0.5). Or, dans mon exemple, cela n'est pas le cas car il y a seulement 30 sujets qui testent, autrement dit non pas 480 pièces à peu près identiques mais 30 pièces dont on sait AU DEPART ET A PRIORI QU'ELLES SONT CLAIREMENT DIFFERENTES. Il existe donc un "effet-sujet" qui doit être testé (dans les essais cliniques on appelle cela un "effet centre" -terminologie se rapportant à centre hospitalier ou centre d'essai où sont généralement effectuées les études-). C'est un domaine qui est complexe à la frontière entre la méthodologie et la statistique.
je ne suis pas tout à fait d'accord : on teste contre le hasard. Et le hasard a toujours une probabilité de 0.5 (entre deux possibilités). Donc je ne vois pas le problème ici de considérer 291 sur 480 et de calculer la probabilité que ce résultat ait été acquis au hasard. On ne calcule pas des trucs sur les individus, on calcule la probabilité que tel ou tel résultat soit arrivé au hasard...
(on suppose évidemment que le test s'est passé de manière correcte et que les testeurs ne se sont pas influencés entre eux; car c'est là-dessus que Pio a répondu à Hervé, un peu hors-sujet il me semble).
Donc je maintiens que la probabilité que le résultat de 291/480 dans cette expérience arrive par hasard était de 1 chance sur 500000 (je reprends le chiffre de Pio) et que donc si c'était le premier test sur ce sujet pour tous ces auditeurs, alors la différence serait tout à fait validée dans ce cas (on est bien en dessous de 1% de chance que ça soit arrivé par hasard, bien bien en dessous !)
Pio2001 a écrit:wald a écrit:Pourquoi les objection de Pio sur en substance "si on change de méthode, ça ne marche plus" ? (et puis c'est quoi le cherry picking ?
):
Si on change de méthode
après coup, cela ne marche plus. Tout simplement parce qu'on n'est plus en aveugle. On connaît tous les résultats. Trop facile de choisir 15 bonnes réponses parmi 30 quand on les connaît déjà, et dire regardez ! Si on enlève les 15 réponses fausse, il reste 15 bonnes réponses sur 15 !
Si, en fait on peut faire du cherry picking, sous certaines conditions : tant qu'on ne ne sépare pas les réponses d'un individu : par exemple si 3 individus ont échoués et qu'un individu pour son premier test a fait 15/15, je peux ne considérer (choisir) que cet individu parmis les 4.
A l'intérieur des résultats d'un individu normalement il faut tout considérer. Mais pour simplifier les calculs, comme vu au dessus, je peux aussi extraire une série de 21 succès
à la suite chez cet individu et dire qu'il a réussi (si cette série de 21 à la suite fait partie d'une série globale de moins de 10000 tests). Alors je suis sûr qu'il y avait moins de 1% de chance que cette individu réussisse une série de 21 à la suite dans sa série de 10000 (le
à la suite est fondamental ici).