Test en aveugle

» 19 Oct 2009 17:48

corsario a écrit:
roland_de_lassus a écrit:
corsario a écrit:Le problème c'est qu'après quelques tests en aveugle où je n'ai pas pu faire la différence avec le 16/44.1, ce plaisir forcément a disparu. Alors c'est un plaisir, oui, mais un plaisir fugace.)

Je m'en voudrais d'être le (deuxième) casse-pied de service, mais encore une fois, cette phrase me dit que tu as tiré des conclusions d'un ABX raté....
Alors que tu ne devrais pas.

Ou alors, j'ai rien compris (non plus)...

Je n'ai pas tiré de conclusion. Mon cerveau (mon inconscient) a tiré des conclusions. Et le plaisir a disparu

Pour aller plus loin, c'est typiquement le cas d'un ABX 'pédagogique' pour le testé (en l'occurence moi) :

1) J'entends des différences en non aveugle (Auto-influence banale)
2) ces différences disparaissent en aveugle (et pourtant j'ai cherché) — (Auto-influence banale INVERSEE, par changement de cause : le si fascinant et "scientifique" ABX)[/b]

je ne peux rien conclure d'universel sur cette expérience (car on ne peut pas tirer de conclusion d'un ABX raté)
Mais j'ai appris quelque chose [b]pour moi : une différence que moi j'entendais a disparu quand j'ai essayé de réussir un ABX.
Entre parenthèse quand je suis revenu en non-aveugle, la différence avait toujours disparu. (elle a disparu car vous croyez toujours à leur absence après le test : ce test "raté" a d'autant plus RÉUSSI que c'est désormais à lui que vous croyez ; "scientifique", l'ABX vous a ébloui comme une platine plaquée or, "scientifique" et donc infaillible il ne saurait mentir et par-là vous faire mentir à vous-même... croyez-vous...)...

Donc je ne tire pas de conclusion générale (car on ne peut pas tu as raison tirer de conclusions générales d'un ABX raté), mais ma perception du 24/192 vs 16/44.1 a changée, pour moi.

Tu vois la nuance ?

D'un point de vue général tout ce qu'on pourrait dire c'est :
1) Corsario est une andouille, il entendait des différences là où il n'y en avait probablement pas (mais ça ne veut pas dire qu'il n'y a jamais de différence entre le 24/192 et le 16/44.1).

D'un point de vue personnel ce que j'en tire c'est :
1) j'entendais des différences non négligeables en non aveugle. Après un test en aveugle je ne les entendais plus. Je ne les entends plus non plus en non aveugle maintenant. Mon sentiment est que si différences il y a elles sont beaucoup plus faibles que ce que je croyais et ce que j'entendais. (Vos différences absentes d'aujourd'hui, ou faiblement présentes, n'ont pas davantage de valeur que leur présence avant le test. Vous n'avez pas pu prouver que vous pouviez échapper à votre auto-influence au cours du test, puisque ce test est à vos yeux raté (ou alors il est réussi ? ), et pourtant cet ABX est censé, par définition, faire disparaître toute auto-influence.)

J'espère que c'est plus précis...

» 19 Oct 2009 18:02

corsario a écrit:Le problème c'est qu'après quelques tests en aveugle où je n'ai pas pu faire la différence avec le 16/44.1, ce plaisir forcément a disparu.

Dans mon cas, ce plaisir n'existait que par contraste avec la frustration d'écouter en 44.1 kHz 16 bits. Mais après test en aveugle, la frustration aussi a disparu.

» 19 Oct 2009 18:02

@Ghozze : la science ne me fascine pas du tout. C'est mon quotidien, donc pour moi c'est comme le pain pour toi : ça n'a rien de spécial. D'autre part la science n'est pas "infaillible" car elle est faite par des scientifiques, qui sont faillibles évidemment. La science pour moi c'est comme un femme avec laquelle on vit depuis 20 ans : on apprécie ses qualités et on connait ses défauts, mais il est rare qu'on soit encore aveuglé ou fasciné comme tu as l'air de le croire.

Sur toi peut-être la science te fait beaucoup d'effet (répulsif apparemment), mais moi elle me fait très peu d'effet.

Sur le fond, si les auditeurs d'un test ABX étaient soudain paralysés et rendus "sourds" sous la stupéfaction de se livrer à une "expérience", aucun test ABX ne serait réussi. C'est le contraire qui est vrai (cf les liens de Pio sur les dizaines de résultats de tests ABX).

D'ailleurs plutôt que de parler d'auto-influence inversée (!) dis plutôt "perte des moyens", c'est plus clair d'une part, et ça évite d'entretenir une fausse symétrie avec l'auto-influence en non-aveugle qui n'a rien à voir.

Et pour te rassurer je réussi des tests ABX (dernier en date je crois : la différence entre deux fichiers dont l'un est coupé au-delà de 13 kHz. Faisable sur du bruit blanc, mais dur, dur sur de la musique).

D'ailleurs, encore une fois, si tu essayais ne serait-ce que ce test simple, tu verrais que le test ABX est beaucoup moins impressionnant et terrible que ce que tu crois, et beaucoup plus drôle. Donc on a un fichier contenant du bruit blanc. Et puis des variantes où les fréquences ont été coupées à partir de 10 kHz, 11kHz, etc jusqu'à 17 ou 18 kHz. C'est très amusant (ou pas suivant son état d'esprit) de voir que ce qui est très facile pour la coupure à 10 kHz devient de plus en plus difficile quand on monte la fréquence de coupure. Sur de la musique c'est encore plus dur car les fréquences en questions sont plus rares.

» 19 Oct 2009 18:03

Pio2001 a écrit:
corsario a écrit:Le problème c'est qu'après quelques tests en aveugle où je n'ai pas pu faire la différence avec le 16/44.1, ce plaisir forcément a disparu.

Dans mon cas, ce plaisir n'existait que par contraste avec la frustration d'écouter en 44.1 kHz 16 bits. Mais après test en aveugle, la frustration aussi a disparu.

Tout à fait exact ! J'allais le préciser et je ne savais pas comment l'exprimer; Tu l'as fait.

Car si d'un côté on perd certes le plaisir exquis du 24/192, de l'autre on perd aussi la frustration de "l'horrible" 16/44.1. Donc finalement on est gagnant : le 16/44.1 est finalement aussi bon que le 24/192, Alleluia, quel confort !

» 19 Oct 2009 20:21

Bon à la demande générale (enfin, bon deux forumeurs, c'est pas si mal), je vous propose les résultats suivants lors d'un test ABX. On prend 30 sujets et on essaye de voir s'il existe une différence audible entre les matériels A et B. On procède à 16 évaluations par sujet et on demande à chaque fois s' il est capable de dire s'il écoute A ou B et on voit le nombre de réponses exactes. 14 ou plus de réponses exactes pour un participant permettent de conclure à un test "réussi" selon la procédure classique ABXienne. Si aucun des participants n'a un score supérieur ou égal à 14, on ne peut rien conclure puisqu'il est possible qu'un autre auditeur n'appartenant pas à cet échantillon aurait réussi ce test, validant ainsi l'existence une différence audible.
Admettons que dans mon expérience, aucun des 30 sujets ait un score de 14 ou plus de bonnes réponses. On en conclura généralement que
1. Le test ABX n'a pas permis de mettre en évidence une différence audible entre les matériels testés (proposition a priori exacte)
2. Certains (mais pas tous) diront que si différence il y a, elle est probablement assez modeste, puisque non mise en évidence par la procédure ABX.

Je vais essayer de démontrer dans l'exemple ci-dessous que les deux propositions/ conclusions 1 et 2 peuvent être fausses. Analysons par exemple les résultats INDIVIDUELS de chacun des sujets et comptons chaque réponse exacte et admettons que l'on se trouve avec la distribution suivante: 7/16, 11/16, 5/16, 12/16, 11/16, 10/16, 9/16, 12/16, 5/16, 12/16, 11/16, 10/16, 12/16, 11/16, 9/16, 7/16, 12/16, 11/16, 10/16, 12/16, 9/16, 5/16, 10/16, 11/16, 9/16, 10/16, 9/16, 10/16, 7/16, 12/16.
On peut calculer qu'il existe 291 réponses exactes sur les 480 soit près de 61% des cas, à comparer avec une probabilité théorique de 50% . La différence est statistiquement significative (comparaison d'un pourcentage observé dans un échantillon à un pourcentage théorique). On peut également (peut-être de façon plus élégante) procéder à la comparaison en utilisant un test du chi carré. On voit qu'il existe 5 sujets ayant un score inférieur à 8 réponses exactes et 25 sujets ayant un score supérieur à 8 (différence statistique hautement significative). Cette distribution penche clairement vers des réponses exactes plutôt qu'inexactes tout en utilisant la procédure ABX mais pas le test binômial qui lui est habituellement associé.
Dans ce cas (et en admettant que je n'ai pas fait d'erreur de raisonnement), on peut en conclure que les propositions 1 et 2 peuvent être inexactes y compris en cas de test ABX apparemment négatif.
Le fait que beaucoup d'auditeurs arrivent à distinguer A de B sans faire beaucoup d'erreurs (mais sans jamais que personne n'y arrive tout à fait) est peut-être liée à une différence audible, certes subtile mais réelle et mise en évidence par un test statistique classique.

» 19 Oct 2009 22:18

Je ne suis pas capable d'apprécier autrement qu'intuitivement cette démonstration qui, peut être, va être réfutée

Mais elle est séduisante à un détail près, elle n'invalide pas l'hypothèse 2 comme tu l'observes d'ailleurs en conclusion.

On a déjà discuté des test semi ratés (je n'ose dire semi réussis) avec des résultats autour de, à la louche, 10/15 à 13/15. On les a toujours envisagés sous l'angle individuel en disant souvent qu'en recommençant, on pourrait peut être améliorer le score, mais en observant d'un autre mouvement qu'à titre individuel, 10/15 donnait une incertitude bien trop grande.

Je ne crois pas qu'on ait jamais en revanche et pour cause envisagé un panel aussi large que 30 sujets dans les tests des Kangourous et je ne me souviens pas qu'on ait discuté de résultats en ABX en analysant collectivement des tests.

Je sais en revanche avoir été très agacé et l'avoir dit à de nombreuses reprises par les ABX de matrix, le site espagnol qui s'en est fait une spécialité, car derrière l'affirmation un peu fréquente "personne n'a entendu de différences", on ne connais jamais le détail des scores. Or souvent ces tests ont été passé par 6 à 10 sujets il ne semblait pas anormal de savoir s'il se dégageait une tendance (dans les deux sens d'ailleurs) afin d'explorer ce que ça pouvait signifier.

Bref, piste intéressante

» 19 Oct 2009 22:38

Je glanais chez Monsieur Winer, et je me demandais ce qu'on testait exactement... http://www.ethanwiner.com/believe.html :wink:

» 20 Oct 2009 0:15

herve25 a écrit:je vous propose les résultats suivants lors d'un test ABX.

C'est un bon exemple. Ce cas particulier fonctionne bien, car les scores sont très significatifs. On peut faire une analyse en conservant l'approche binômiale, mais en considérant qu'il s'agit d'un seul ABX de 480 essais, dont 291 corrects. La probabilité de faire un score de 291 ou supérieur par chance est de 1 sur 500 000.

Mais il faut prendre garde à ce procédé lorsque les résultats sont tout juste significatifs. Ce n'est pas valable, car changer de méthode d'analyse pour une autre, indépendante de la première, après publication des résultats, est une forme de cherry picking. Et si cela ne marche pas, on pourrait envisager de ne garder que les résultats des femmes. Si ça ne donne rien, juste telle ou telle tranche d'âge. Si aucune tranche d'âge ne donne de résultats significatifs, la seconde moitié des auditeurs, parce que le matériel était chaud. Sinon, les auditeurs travaillant dans l'audio. Ou encore ceux ayant eu option musique à l'école. etc.
A force d'essais, il est probable que l'on réussise à trouver une catégorie ayant obtenu des résultats significatifs. Par définition, si on trouve des critères de sélection indépendants les uns des autres, on aura des résultats significatifs dans la fourchette de 5 % d'erreur pour 5 % des groupes formés ! C'est la signification même de "5 % d'erreur".

Puisqu'on parle de matrix-hifi, on voit qu'ils répertorient des dizaines de tests ABX. Comme la plupart sont négatifs, et que leur condition de succès est une probabilité d'erreur de type 1 inférieure à 5%, on peut dire qu'il est probable que certains de leur succès sont de faux succès.

» 20 Oct 2009 0:47

herve25 a écrit:Bon à la demande générale (enfin, bon deux forumeurs, c'est pas si mal), je vous propose les résultats suivants lors d'un test ABX. On prend 30 sujets et on essaye de voir s'il existe une différence audible entre les matériels A et B. On procède à 16 évaluations par sujet et on demande à chaque fois s' il est capable de dire s'il écoute A ou B et on voit le nombre de réponses exactes. 14 ou plus de réponses exactes pour un participant permettent de conclure à un test "réussi" selon la procédure classique ABXienne. Si aucun des participants n'a un score supérieur ou égal à 14, on ne peut rien conclure puisqu'il est possible qu'un autre auditeur n'appartenant pas à cet échantillon aurait réussi ce test, validant ainsi l'existence une différence audible.
Admettons que dans mon expérience, aucun des 30 sujets ait un score de 14 ou plus de bonnes réponses. On en conclura généralement que
1. Le test ABX n'a pas permis de mettre en évidence une différence audible entre les matériels testés (proposition a priori exacte)
2. Certains (mais pas tous) diront que si différence il y a, elle est probablement assez modeste, puisque non mise en évidence par la procédure ABX.

Je vais essayer de démontrer dans l'exemple ci-dessous que les deux propositions/ conclusions 1 et 2 peuvent être fausses. Analysons par exemple les résultats INDIVIDUELS de chacun des sujets et comptons chaque réponse exacte et admettons que l'on se trouve avec la distribution suivante: 7/16, 11/16, 5/16, 12/16, 11/16, 10/16, 9/16, 12/16, 5/16, 12/16, 11/16, 10/16, 12/16, 11/16, 9/16, 7/16, 12/16, 11/16, 10/16, 12/16, 9/16, 5/16, 10/16, 11/16, 9/16, 10/16, 9/16, 10/16, 7/16, 12/16.
On peut calculer qu'il existe 291 réponses exactes sur les 480 soit près de 61% des cas, à comparer avec une probabilité théorique de 50% . La différence est statistiquement significative (comparaison d'un pourcentage observé dans un échantillon à un pourcentage théorique). On peut également (peut-être de façon plus élégante) procéder à la comparaison en utilisant un test du chi carré. On voit qu'il existe 5 sujets ayant un score inférieur à 8 réponses exactes et 25 sujets ayant un score supérieur à 8 (différence statistique hautement significative). Cette distribution penche clairement vers des réponses exactes plutôt qu'inexactes tout en utilisant la procédure ABX mais pas le test binômial qui lui est habituellement associé.
Dans ce cas (et en admettant que je n'ai pas fait d'erreur de raisonnement), on peut en conclure que les propositions 1 et 2 peuvent être inexactes y compris en cas de test ABX apparemment négatif.
Le fait que beaucoup d'auditeurs arrivent à distinguer A de B sans faire beaucoup d'erreurs (mais sans jamais que personne n'y arrive tout à fait) est peut-être liée à une différence audible, certes subtile mais réelle et mise en évidence par un test statistique classique.

Très intéressant et astucieux Herve, mais on peut conclure encore plus facilement que cette expérience a en fait démontré une différence entre A et B, en utilisant tout simplement le calcul binomial. Si on poole tous les tests on arrive donc à 291 succès sur 480 comme tu le fais remarquer.

Posons-nous la même question que d'habitude : quelle est la probabibilité d'obtenir 291 succès au hasard (proba 0.5) sur 480 tests ?
La réponse (en utilisant ce petit calculateur, mode d'emploi et commentaires ici) est : p=0.000001, soit 0.0001 %. Conclusion : ce test montre sans risque d'erreur que A et B sont différents. The end.

Qu'est-ce que ça veut dire ? Qu'il est finalement plus 'facile' de montrer une différence en faisant des tests avec beaucoup de personnes. Même si aucune n'a réussi individuellement, la tendance globale montre qu'il y a une différence certaine entre A et B.

wald a écrit:On a déjà discuté des test semi ratés (je n'ose dire semi réussis) avec des résultats autour de, à la louche, 10/15 à 13/15. On les a toujours envisagés sous l'angle individuel en disant souvent qu'en recommençant, on pourrait peut être améliorer le score, mais en observant d'un autre mouvement qu'à titre individuel, 10/15 donnait une incertitude bien trop grande.

A la lumière de ce qui précède, refaisons le calcul en poolant: mettons 4 personnes qui font 10/15, 12/15, 11/15 et 9/15. La meilleure proba individuelle (le 12/15) dit que ce résultat a 1.7 % de chance d'être du au hasard : c'est déjà pas mal, mais c'est encore trop. Mais si on poole tout (42 sur 60), alors la proba d'avoir réussi ce résultat par hasard est de p=0.001335 soit 0.13 % (c'est mieux; en fait c'est entre le 13/15 et le 14/15 au niveau proba).

Intéressant...

Bon, si on se réfère à cette discussion mémorable où on essayait de voir combien de faux succès on allait obtenir en multipliant les essais, Pio va normalement nous trouver une objection

Son argument, je pense, sera de dire que si on fait ça, alors il faut pooler tous les résultats de test sur la même comparaison depuis des années. Sinon on a la possibilité de de trouver une série comme celle de Herve par chance : elle serait noyée dans une série pleine de 2/16, 1/16, etc. (toujours l'exemple de la secte des 10000 tarés qui font 10 tests ABX par jour tous les jours : la chance de finir par avoir une série de 30 qui soit un succès ne serait pas négligeable - la flemme de faire le calcul)

Mais cela dit, augmenter le nombre d'essais est une bonne idée. Et d'autre part quand on a n personnes ayant effectué un test, il est intéressant de penser à pooler les résultats pour voir si on n'obtient pas un succès global... :idee:

EDIT : flûte: grillé par Pio :mdr:

(mais je n'ai pas la même proba que lui. Ca doit être mon logiciel qui arrondit, pas grave)

EDIT2 : et je n'étais pas loin en anticipant son objection :wink:

EDIT3 : et vue l'heure du post de Pio et l'heure du mien j'ai donc mis plus de 30 minutes entre le début de mon post et le moment où j'ai terminé de l'écrire --> je vais me coucher (en tout cas ce qui est bien c'est qu'on est d'accord lui et moi)

» 20 Oct 2009 1:14

corsario a écrit:(mais je n'ai pas la même proba que lui. Ca doit être mon logiciel qui arrondit, pas grave)

Je trouve 0.000001859735

J'ai aussi la valeur exacte sous forme de fraction irréductible, mais le numérateur et le dénominateur font trois kilomètres de long.

» 20 Oct 2009 8:51

Ça devient de plus en plus musical cette filière... :wink:

» 20 Oct 2009 9:22

Pio2001 a écrit:
corsario a écrit:(mais je n'ai pas la même proba que lui. Ca doit être mon logiciel qui arrondit, pas grave)

Je trouve 0.000001859735

J'ai aussi la valeur exacte sous forme de fraction irréductible, mais le numérateur et le dénominateur font trois kilomètres de long.

Je veux bien la formule ou le logiciel que tu utilises stp, le mien (http://www.quantitativeskills.com/sisa/distributions/binomial.htm) arrive à ses limites (6 chiffres après la virgule) quand les probas sont très petites.

ghozze a écrit:Ça devient de plus en plus musical cette filière...

Tu sais on parle de technique, donc forcément... Va dans les filières DoItYourself sur un fil de construction d'ampli ou de DAC, tu vas voir si c'est musical :roll:

Ou mieux : apprend le solfège, tu serais surpris de voir à quel point ce n'est pas musical parfois

La technique, le travail : c'est rarement fun Ghozze, mais cela offre des récompenses inespérées ensuite...

» 20 Oct 2009 10:59

corsario a écrit: Qu'est-ce que ça veut dire ? Qu'il est finalement plus 'facile' de montrer une différence en faisant des tests avec beaucoup de personnes. Même si aucune n'a réussi individuellement, la tendance globale montre qu'il y a une différence certaine entre A et B.

A la lumière de ce qui précède, refaisons le calcul en poolant: mettons 4 personnes qui font 10/15, 12/15, 11/15 et 9/15. La meilleure proba individuelle (le 12/15) dit que ce résultat a 1.7 % de chance d'être du au hasard : c'est déjà pas mal, mais c'est encore trop. Mais si on poole tout (42 sur 60), alors la proba d'avoir réussi ce résultat par hasard est de p=0.001335 soit 0.13 % (c'est mieux; en fait c'est entre le 13/15 et le 14/15 au niveau proba).

Intéressant...

C'est ce que je disais avec MATRIX. Il ya peut, être, je veux bien l'admettre, de faux positifs sur la masse comme le remarque Pio, mais comme sauf erreur ils ne poolent jamais (on en apprend des mots !) les résultats, j'en déduis qu'il doit y avoir bien plus de faux négatifs.

C'est ennuyeux et reviendrait en définitive à donner des résultats erronés dans certains cas. C'est ça ?

Bon, si on se réfère à cette discussion mémorable où on essayait de voir combien de faux succès on allait obtenir en multipliant les essais, Pio va normalement nous trouver une objection Son argument, je pense, sera de dire que si on fait ça, alors il faut pooler tous les résultats de test sur la même comparaison depuis des années. Sinon on a la possibilité de de trouver une série comme celle de Herve par chance : elle serait noyée dans une série pleine de 2/16, 1/16, etc. (toujours l'exemple de la secte des 10000 tarés qui font 10 tests ABX par jour tous les jours : la chance de finir par avoir une série de 30 qui soit un succès ne serait pas négligeable - la flemme de faire le calcul)

Je n'ai pas bien compris cette partie du message de Pio (ci-après). Au bout d'un moment d'ailleurs je ne comprend plus les principes en jeu.

Mais il faut prendre garde à ce procédé lorsque les résultats sont tout juste significatifs. Ce n'est pas valable, car changer de méthode d'analyse pour une autre, indépendante de la première, après publication des résultats, est une forme de cherry picking. Et si cela ne marche pas, on pourrait envisager de ne garder que les résultats des femmes. Si ça ne donne rien, juste telle ou telle tranche d'âge. Si aucune tranche d'âge ne donne de résultats significatifs, la seconde moitié des auditeurs, parce que le matériel était chaud. Sinon, les auditeurs travaillant dans l'audio. Ou encore ceux ayant eu option musique à l'école. etc. A force d'essais, il est probable que l'on réussise à trouver une catégorie ayant obtenu des résultats significatifs. Par définition, si on trouve des critères de sélection indépendants les uns des autres, on aura des résultats significatifs dans la fourchette de 5 % d'erreur pour 5 % des groupes formés ! C'est la signification même de "5 % d'erreur".

Pourquoi donc un positif unique serait significatif mais le serait moins une fois pris dans une vaste série de négatif (je comprend en fait, mais ça heurte mon intuition - fausse sans doute - qu'un positif unique s'inscrit de manière générale dans un nombre indéterminé de négatifs et qu'il n'est jamais unique, je ne sais pas si je suis clair là :oops:

).

Pourquoi les objection de Pio sur en substance "si on change de méthode, ça ne marche plus" ? (et puis c'est quoi le cherry picking ?

):

Mais cela dit, augmenter le nombre d'essais est une bonne idée. Et d'autre part quand on a n personnes ayant effectué un test, il est intéressant de penser à pooler les résultats pour voir si on n'obtient pas un succès global...

Cela paraîtrait même de bon sens, en quittant un instant les probas pour la pratique des ABX. Même si la mienne est très parcellaire, je vois bien que si la différence est subtile, c'est beaucoup exiger, non de l'identifier mais de l'identifier au moins 14 fois sur 15 c'est à dire sans presque commettre d'erreur.

En poolant les résultats de 4 ou 5 personnes, le nombre raisonnable des participants à un ABX dans nos sessions, on a des chances de parvenir à un résultat positif qui semblent plus grandes.

A l'inverse, quid alors d'un seul positif et de 4 négatifs très francs ? Si on "poole" (je ne m'en lasse pas

), le résultat serait négatif ?

J'apprécie mal ces différences d'éclairage si, selon qu'on choisit de pooler ou de ne pas pooler, on peut obtenir des résultats opposés. Cela ne parait pas très sain ou bien nécessite de bien identifier les conditions qui le permettent ou l'interdise.

C'est très troublant tout de même.

» 20 Oct 2009 12:53

wald a écrit:En poolant les résultats de 4 ou 5 personnes, le nombre raisonnable des participants à un ABX dans nos sessions, on a des chances de parvenir à un résultat positif qui semblent plus grandes.

oui, si la différence existe réellement et si les 5 personnes sont bonnes. S'il y a un pas doué dans le lot, ça sera moins bon. Tu peux aussi choisir de ne pooler que les "bons" résultats, mais là tu fais du "cherry picking" (voir plus loin). C'est valable seulement si le résultat final est très très bon (meilleur que 0.0000001 %). En gros c'est valable si en poolant tout tu gardes un résultat significatif (< 0.5 % disons). Donc autant tout pooler quand on a l'info.

wald a écrit:A l'inverse, quid alors d'un seul positif et de 4 négatifs très francs ? Si on "poole" (je ne m'en lasse pas ), le résultat serait négatif ?

Si on poole le résultat serait négatif : mais un résultat négatif ne veut rien dire (par exemple tes 4 négatifs peuvent être dus à des personnes sourdes ou peu entrainées ou peu motivées, etc.).
Un seul positif (ex 14/15) suffit à valider.

wald a écrit:J'apprécie mal ces différences d'éclairage si, selon qu'on choisit de pooler ou de ne pas pooler, on peut obtenir des résultats opposés. Cela ne parait pas très sain ou bien nécessite de bien identifier les conditions qui le permettent ou l'interdise.

C'est très troublant tout de même.

Pas tant que ça. A chaque fois, en gros, il s'agit de compter le nombre de succès que l'on a eu (ça c'est facile) et de diviser (je simplifie à outrance) par le nombre de possibilité qu'il y avait. Suivant si on poole ou pas, suivant si on décide à l'avance de pooler ou pas, le nombre de possibilités change.

Quels sont les risques :

- Risque de faux ABX positifs : ça arrive si on a un nombre très grands de tests et que l'on a un critère trop gentil (c'est ce qu'on comptait dans la discussion dont j'ai mis le lien plus haut). Au bout d'un certain (grand) nombre de tests on aura des "chances" d'avoir des ABX positifs. Mais si on durcit ce qu'on appelle un ABX positif (par exemple si on demande 45/45) alors le nombre de tests à faire pour avoir un faux positif deviendrait si énorme que l'on sait que c'est impossible à l'échelle humaine.
De manière opératoire, quand on obtient un résultat (par exemple si on reprend les 4 personnes qui ont fait 42/60 en poolant, le résultat est qu'il y a 0.13% de chance que ce résultat soit du au hasard), on doit évaluer dans quel cadre on se situe : est-ce que ces 4 personnes se réunissent tous les WE et font une série de 60 tous les WE depuis bientôt 4 mois ? Et enfin ce WE c'est la première fois où on a quelque chose de significatif. Les WE précédents on avait une moyenne de 30/60. Dans ce cas le vrai résultat c'est : 16 tests à 30/60 échoués + un test à 42/60, soit 522/1020. Et là c'est nettement moins favorable : on passe de 0,13% à 24% de chance que ce résultat soit du au hasard.
Conclusion : le problème n'est pas de pooler ou de ne pas pooler, mais dans chaque cas il faut évaluer combien d'essais on été fait en tout. Il faut noter que si la différence est moins difficile à mettre en évidence, les stats seront tout de suite plus favorable. Dans l'exemple précédent, si la moyenne de 16 semaines est de 33/60 au lieu de 30/60, le résultat total est de 528/960, soit 0.1% de chance que ça soit du au hasard (alors que chaque semaine à 33/60 donnait 26% de chance que ça soit dû au hasard).
En résumé : un fois à 33/60 ça peut être le hasard, mais réussir 16 fois à 33/60, c'est déjà beaucoup plus fort. Et si en en plus la 17ème semaine vous arrivez à un 42/60, alors là le score passe à 570/1020 soit 0.01 % de chance que ça soit le hasard : bingo !

Le "cherry picking" dont parle Pio c'est de piocher dans une grande série de résultat ce qui t'arrange. Par exemple tu joue 17 semaines, tu as à chaque fois 30/60 et puis une semaine tu fais 42/60. Si tu choisis de ne parler que du test réussi à 42/60 en clamant que tu as réussi à faire un 0.13%, tu triches, car en réalité avec tous les essais à 30/60 autour, ça fait du 24%. C'est pour cette raison que j'avais fais des calculs compliqués (le lien est dans un message au dessus) pour "assurer" un test, sans que j'ai à me préoccuper de savoir combien d'essais j'avais fait avant (parce que ça me fatigue). Dans le cas le plus "méchant" un 45/45 suffit à te mettre à l'abri de toutes les critiques.

Mais là on risque de faire des.. faux négatifs, c-à-d de rater des positifs :
- Risque de faux ABX négatifs : là c'est plus délicat. Si on n'a pas réussi à atteindre un objectif inattaquable pour un test individuel (45/45 si on est paranoïaque, 34/35 si on est moins strict, ou 26 à la suite si on préfère), on peut essayer de pooler. C'est vrai qu'il faut penser à le faire. Il faut bien se rendre compte que dans ce cas on est dans un cas de différence faible (sinon il n'y aurait pas de problème à réussir un 26 à la suite. Ou même un 14/15 si on n'a jamais fait de tentative avant) et que c'est toujours un peu acrobatique. Si on poole, il nous revient de montrer que l'on ne triche pas et que l'on ne fait pas de "cherry picking" et donc que l'on n'a pas sélectionné des résultats favorables parmi un série moins favorable.

En gros, sélectionner un 45 à la suite (45/45) parmi une série de 100000, c'est OK, même si on poole les 100000 avec les 45/45 on arrive à quelque chose qui ne peut pas être dû à la chance.

En conclusion je dirais que si on s'aperçoit qu'en poolant on arrive à quelque chose de significatif mais pas déterminant, le mieux est de prendre ça pour un encouragement réel à poursuivre les tests pour arriver à un truc inattaquable (genre 15/15 ou 25/25). En effet, s'il y a une différence, on doit être capable de l'identifier à tous les coups en prenant le temps et en se concentrant. Sinon, si on se contente du résultat poollé "bon" mais pas "béton", on prend le risque que les résultats soient critiqués.

Pour reprendre l'exemple abordé en première ligne de ce post : que se passe-t-il si on sélectionne les 3 meilleurs résultats parmis les 5 personnes pour les pooler ? Tout dépend à quel score on arrive :idee:

S'il est très très très très bon, peu importe que l'on ait sélectionner : on aurait aussi eu un bon score en poolant le tout.

--> En toute rigueur il faut tout pooler, toujours, toutes les expériences sur un même test, et se fier à se résultat (qui doit être disons inférieur à 1%). Mais si on n'a pas envie de se fatiguer à tenir le compte de tous les tests, on peut faire du cherry picking, ou on peut faire des tests dans son coin jusqu'à arriver à quelque chose, mais là il faudra arriver à un résultat < 0.000000003% de chance pour être sûr qu'en poolant avec tous les échecs précédent on reste < à 1%)

En gros : si on poole tout, réussir un score < 1 % c'est OK, si on ne poole pas, alors réussir 0.000000003% c'est mieux. La bonne nouvelle c'est que 0.000000003% c'est faisable (ça correspond à réussir un 35/35). Et si on est parano est qu'on veut assurer que si on poolait tous les tests ratés du monde on serait quand même inférieurs à 0.01 %, alors c'est un 45/45 qu'il faut réussir.

Tu peux reprendre cette discussion par exemple : http://www.homecinema-fr.com/forum/viewtopic.php?p=172791233#p172791233

La conclusion de la discussion était là : http://www.homecinema-fr.com/forum/viewtopic.php?p=172796055#p172796055. On s'était calmé et on était arrivé au consensus que 27 à la suite c'est valable si on fait moins de 10000 tentatives en tout.

*35/35 ou 45/45 ça veut dire 35 à la suite ou 45 à la suite, ça ne veut pas dire qu'il suffit d'aller chercher 35 succès éparpillés dans les archives :idee:

» 20 Oct 2009 13:11

Merci Corsario

Je comprend mieux. J'avais en toute franchise lâché la conversation que tu as redonnée en lien et mal m'en a pris. Quoiqu'il en soit je digère tout ça et reviens poser des questions idiotes dès que possible :wink:

.