Bonjour à tous.
Lors d'un récent passage de Shadows à la maison, nous avons (très rapidement) évoqué les limitations des différents modes de restitution (stéréo, 5.1, etc.). Comme c'est-là une problématique fondamentale lorsqu'on s'intéresse à la reproduction musicale et qu'on trouve de bonnes réf. sur internet sur ce sujet, j'ai profité de qq jours de vacances pour préparer ce post et donner quelques points d'entrée qui permettrons à chacun d'approfondir à loisir cette question.
Aujourd'hui de nombreux modes de reproduction musicale existent : stéréo classique, 5.1 (ITU 755), ambisonic, ambiophonie, hybrides divers des deux derniers, binaurale (casque avec virtualisation de sources externes), transaural (stéréo avec crosstalk cancelation), WFS, etc. Tous ces modes sont "facilement" accessibles sur PC, mais on trouve aussi (plus difficilement) des décodeurs ds le marché pour certains d'entre eux.
Aucun de ces modes n'est hélas parfait car aucun ne permet de reproduire une image sonore naturelle telle que nous l'expérimentons à chaque instant dans notre existence. Néanmoins, ce besoin d'une illusion sonore tridimentionnelle aboutie se fait aujourd'hui sentir dans de nombreux domaines, par exemple :
- le jeux sur ordinateur (qui dégagent plus de recettes que le cinéma) : les cartes sons actuelles permettent de calculer en temps réel le champ sonore qui entoure le joueur (via une modélisation plus ou moins aboutie des sources sonores et de la manière dont elles se propagent dans l'environnement 3D du joueur),
- la réalité virtuelle et les simulateurs où le son 3D a autant d'importance que l'image si on veut créer une illusion correcte,
- les parcs de loisir qui sont de plus en plus friants d'ambiances sonores 3D réalistes où que soit situées les personnes dans l'environnement sonore,
- le cinéma,
- et enfin la reproduction musicale.
Dans tous les cas, les questions qui se posent sont comment disposer les enceintes et quel signal il faut leur envoyer pour recréer une ambiance sonore tridimentionnelle cohérente en fonction du positionnement des personnes et que cette illusion reste stable malgré des déplacements "raisonnables" des personnes (notamment de la tête). Enfin pour le cinéma et la reproduction musicale, se pose en plus le problème de la prise de son et du mixage.
Pour certains modes de reproduction, la qualité de l'image sonore obtenue sera très dépendante de cette prise de son et du mixage mis en oeuvre. C'est le cas notamment de la stéréo conventionnelle et du 5.1 ou l'aspect "artistique" de la prise de son peut prédominer. Pour d'autres, cette qualité sera indépendante de la prise de son car cette dernière est totalement "codifiée" (c'est le cas par exemple de l'ambisonic).
La reproduction d'un champ sonore se caractérise par deux points :
- la reproduction temporelle et fréquentielle (il y a une dualité entre les deux) du champ
- la reproduction spatiale du champ qui permet de synthétiser les sources sonores autour du ou des l'auditeurs.
Aujourd'hui, même si le marketing hifi prétend le contraire et entretient un rêve permanent pour alimenter le marché, on peut raisonnablement considérer que les aspects temporel et fréquentiel de la restitution audio sont correctement maitrisés vu l'état de l'art en matière d'enceinte, d'amplification et de stockage des sources. Bien sûr, des progrès sont encore possibles sur ces points. Néanmoins, les gains que l'ont peut espérer dans le domaine temporel/fréquentiel de la restitution audio (diminution des distorsions temporelles et fréquentielles associées) sont désormais très faibles. On peut donc trouver des ensembles "source-amplification-enceintes" extrêmement performants (comprendre suffisamment respectueux du message sonore enregistré sur le support pour que l'oreille humaine avec ses limitations ait du mal à faire la différence avec le son "véritable"). Le tout est également trouvable à des prix tout à fait accessibles (même si les magasines de hifi s'évertuent sans cesse à faire rêver les gens via des présentation de matos à des prix inaccessibles mais qui n'offrent pas de gain significatifs de performances en terme d'écoute...). Mes préférences perso pour les enceintes vont vers celles qui sont considérées comme étant de bon moniteurs de grandes écoutes ou de semi-proximité car elles sont conçus pour respecter le signal temporel/fréquentiel qu'on leur envoi.
Là ou ça coince par contre, c'est sur la reproduction spatiale du champ. Et c'est clairement là que les progrès sont à faire pour obtenir un champ sonore 3D naturel ds tous les domaines que j'ai cité précédemment. Il est par exemple préjudiciable pour un joueur d'avoir une mauvaise latéralisation du son sur l'arrière et sur les côté car sa "survie" dépend souvent de la détection des sons émis par les enemis qui veulent le surprendre. Un bon système de reproduction dans ce cas est un système qui permet de positionner précisement le son tout autour du joueur et qui ne fait pas "sauter" le son d'enceintes en enceintes si le joueur pivote sur lui-même (continuité de la représentation spatile sonore en fonction des mouvements du joueur)...
Si on considère par exemple la stéréo conventionnelle mise en oeuvre dans une salle avec une acoustique correctement maitrisée ("absence" de coloration et d'échos nuisant à la qualité de l'écoute), la prise de son et le mixage vont jouer sur le delta_I (différence d'intensité entre les enceintes) et le delta_T (différence de phase entre les enceintes) pour placer des sources virtuelles entre les deux enceintes et composer la scène sonore. Ceci est rendu possible par le fait que ces deux principes sont utilisés par notre cerveau pour localiser dans le plan une source sonore en fonction des fréquences émises (on parle alors d'ITD et d'ILD mais je n'approfondirais pas...).
En fonction des prises de son (M-S, stéréosonic (utilisé par Blumlein qui est l'inventeur de la stéréo) , XY, AB, ORTF, etc.), ces différences de temps ou d'intensité sont produites naturellement au moment de la prise de son et éventuellement modifiées pendant le mixage. On peut également faire des prises monophoniques proche des instruments et les placer ensuite au mixage en créant artificiellement un delta_I ou delta_T, ajouter de la réverb, etc.
Les défauts de la stéréo sont multiples :
- scène sonore localisée entre les enceintes, soit en gros 60° de scène (les éventuels effets de localisation en dehors de ces 60° sont dus aux réflexions le long des murs latéraux et sont généralement peu précis).
- scène sonore uniquement frontale et dépendant des effets de salle pour une "diffusion" plus ou moins heureuse autour de l'auditeur,
- sweetspot particulièrement réduit,
- très peu de profondeur sonore pour des mixages en delta-I (la profondeur est généralement "inventée" par l'auditeur en fonction de l'idée qu'il se fait de la scène instrumentale),
- crosstalk inévitable entre les enceintes (l'oreille droite va entendre l'enceinte droite puis avec un leger retard et un effet de masque dû à la tête l'enceinte gauche, ce qui va venir brouiller le message de l'enceinte droite) qui va dégrader les hautes fréquences et est à l'origine de nombreux artefacts tels que colorations, problème de stabilité de l'image sonore, problème de largeur de source sonore ainsi que globalement un manque de naturel de l'image sonore restituée.
On trouvera une bonne description de tous ces points dans l'excellente thèse de Jérôme Daniel à partir de la section 2.2 page 77 :
http://gyronymo.free.fr/index.html
http://gyronymo.free.fr/audio3D/downloa ... ersion.zip
Il y détaille également beaucoup de notions critiques sur la prise de son stéréo que j'ai trouvé intéressantes pour un néofite comme moi car bien argumentées. J'ai notamment pu extrapoler pourquoi la prise de son proche du A-B qu'utilise Philippe Muller (?) d'après son post fait ici (qui repose sur le principe du delta_T) semble mal se marier (je reste très prudent car totalement novice sur ces points) avec les traficotages classiques des mixages pan-pot, ce qui oblige à particulièrement soigner la prise de son au départ pour en extraire la signature stéréophonique puis à utiliser un mixage le plus minimaliste possible (le mixage doit se limiter à un regroupement des différentes prises de son stéréophonique et au "dosage" de la prise de son du champ sonore reverbéré (ambiance de la salle) pour obtenir une écoute réaliste. Tout cela est à confirmer par Philippe, bien évidemment
...).
Dans la précédente thèse, on lira aussi avec intérêt la courte section 1.3.4 p. 46 qui est vraiment très bien rédigée : "Effet des réflexions et de la réverbération, complément psychoacoustiques".
Enfin, pour la définition de l'ILD et de l'ITD de toute l'analyse qui en découle sur la perception psychoacoustique, on peut se "cogner" la section 1.3 complète de la thèse (certains points nécessitent un niveau de math déjà correct), mais pour démarrer, il vaut mieux dégrossir la chose avec l'excellent (et simple!) tutorial dispo ici :
http://interface.cipic.ucdavis.edu/CIL_ ... _psych.htm
http://interface.cipic.ucdavis.edu/CIL_ ... D_home.htm
Malgré tous ses défauts la stéréo à la vie dure. Globalement on peut dire qu'en matière de qualité de restitution frontale stéréo, le meilleur cotoit le pire (assez fréquent malheureusement). Néanmoins quand la prise de son et le mixage sont bien fait, l'illusion stéréophonique est déjà de très bonne facture à condition de rester dans le sweetspot et de peu bouger la tête. Le plus génant selon moi reste l'ouverture horizontale limitée de la stéréo (60°) et ce côté incroyablement artificiel d'une image qui reste frontale avec une profondeur plus psychologique que physique. Je suis chaque fois sidéré qd je lis des CR d'écoute stéréo dithyrambique sur le forum par le fait que les personnes soient généralement impressionnées par la qualité de la scène sonore reconstituée. On ne doit pas avoir les mêmes critères de jugement objectifs d'une scène sonore véritablement réaliste.
La résolution du problème du crosstalk en stéréo a donné lieu à un mode d'écoute spécifique appelé ambiophonie. L'ambiophonie consiste à mettre un obstacle physique entre les deux enceintes pour supprimer le crosstalk, ce qui revient à construire une cloison au milieu du salon (sic!) entre les deux enceintes. Par ailleurs, dans l'ambiophonie les enceintes sont rapprochées pour former un angle de 10° (+ ou - 5° de part et d'autre de la cloison). Avec des prises de sons stéréophoniques respectant la phase (absence de mixage trafiquée), on obtient alors une scène frontale cohérente et particulièrement réaliste qui ouvre sur 180° (voir même des effets arrières) avec un placement très précis des sources, ce qui est remarquable. L'ambiophonie permet aussi d'ajouter une réverb assez réaliste tout autour de l'auditeur via ajout d'enceintes d'ambiances et convolution de la réponse impulsionnelle de salles préenregistrées avec la source stéréo écoutée. Comme pour la stéréo l'inconvénient majeur de l'ambiophonie est le sweetspot très réduit et même si l'ambiophonie permet de recréer un champ d'ambiance autour de l'auditeur, ce n'est pas de la vraie reproduction de champ sonore 3D mais une illusion psychoacoustique convaincante adaptée à des enregistrements en salles de concert de petite, moyenne ou grande taille. Par contre, grâce à l'absence de traficage des prises de son dédiées à 'ambiophonie et au champ reproduit qui couvre 180° sur l'avant, on obtient toujours un résultat d'écoute surprenant et infiniment plus réaliste que pour la stéréo conventionnelle, avec notamment une localisation très fidèle des sources sonores. Sur des CD qui n'ont pas été conçu pour une écoute ambiophonique, le résultat peut aller de catastrophique (resserement de la scène sonore au milieu des enceintes, soit 10° de scène!) à remarquable (largement supérieure à une écoute stéréophonique classique, on parle alors parfois de super stéréo...).
Pour des liens plus détaillés sur ce mode de reproduction (ainsi que d'autres), voir ce post que j'ai fait il y a quelques temps sur cette page :
http://www.homecinema-fr.com/forum/view ... &start=360
Comme tout le monde ne peut pas se permettre de construire une cloison au milieu du salon (en pratique, d'après ce que j'ai pu lire, une paroi "design" en verre devrait suffire car il suffit en général d'abaisser le crosstalk de quelques dB "raisonnables" pour permettre au cerveau de faire la part des choses...), l'ambiophonie a donné naissance à la reproduction transaurale qui consiste à utiliser un dipole stéréo (dipôle stéréo = 2 enceintes plutôt directives espacées seulement de 10°) et un filtre numérique FIR qui se charge d'éliminer plus ou moins complètement le crosstalk. Le problème de ces filtres est que plus on rapproche les enceintes et plus ils nécessitent des puissances imortantes dans les graves qui peuvent rapidement engendrer un clipping de l'ampli. Par contre plus on rapproche les enceintes et plus le filtre sera robuste (ie fonctionnera) sur un sweetspot "large". En pratique, un espacement de 10° est un bon compromis qui permet de positionner la tête avec une précision de quelques centimètres dans le plan médian des enceintes, ce qui est suffisant.
Le plus ancien mode de reproduction qui peut réellement prétendre à une reproduction correcte d'un champ spatial 3D est l'ambisonic, inventé par Gerzon peut après l'échec cuisant de la quadriphonie. Je ne développerai pas ici l'ambisonic, mais si vous êtes intéressé, j'ai mis beaucoup de liens sur mon post ici :
http://www.homecinema-fr.com/forum/view ... &start=360
La thèse de Jérôme Daniel déjà citée est un remarquable travail qui a eu pour objectif d'expliquer a posteriori de manière approndie pourquoi la théorie de localisation plus ou moins "heuristique" inventée par Gerzon fonctionne effectivement et repose sur des fondements solides. En pratique, l'ambisonic (d'ordre 1) nécessite une prise de son spécifique parfaitement codifiée et maîtrisée qui est enregistrée au format B-format WXYZ (soit 4 canaux nécessaires pour retranscrire un champ 3D en un point d'écoute) ou UHJ (soit 3 canaux nécessaires pour retranscrire un champ 2D (absence de hauteur), et qui une fois réduit à deux par une technique de matriçage permet de faire un stockage sur CD). On peut noter que ces formats sont complètement indépendants de l'emplacement des enceintes qui sera choisi pour la restitution du champ. C'est notamment en cela que l'ambisonic est un véritable enregistrement du champ spatial à la position de l'auditeur.
L'ambisonic nécessite bien évidemment un décodeur spécifique pour décoder les formats WXYZ et UHJ en fonction de la configuration des enceintes et du mode d'écoute choisis. On peut noter que ce mode d'écoute peut privilégier l'auditeur central (la reconstruction du champ spatial est dans ce cas optimale) ou, s'il y a plusieurs auditeurs, faire un compromis pour élargir le sweetspot sans donner l'impression que le son sort des enceintes pour les auditeurs les plus rapprochés de ces dernières, mais dans ce cas, l'écoute devient sous-optimale pour tous en terme de qualité et de cohérence du champ sonore spatial. Enfin, si on désire utiliser une configuration non symétriques pour le placement des enceintes (par exemple celle de la norme ITU 755 du 5.1 conventionnel), je vous conseille la lecture de la thèse récente de Bruce Wiggins car il semblerait que les formules de décodages données par Gerzon soit erronées dans ce cas de figure (il faut résoudre des équations non linéaires très complexes pour une config non symétrique d'enceintes telle que celle utilisée en 5.1). La thèse est dispo à la fin de cette page :
http://sparg.derby.ac.uk/SPARG/Staff_BW.asp
L'inconvénient majeur de l'ambisonic est que si on désire une écoute optimale, le sweetspot est très réduit avec une dégradation rapide des hautes fréquences dès qu'on s'en éloigne. Par ailleurs, pour obtenir des scènes spatiales encore plus précises et robustes par rapport à de petit déplacement de l'auditeur (rotation ou translation de la tête), il convient de passer à la reproduction ambisonic d'ordre supérieur à 1, ce qui pose des problèmes de prises de son et multiplie les enceintes...
Notons au passage que l'ambiophonie et l'ambisonic ont aussi fusionné pour donner de nouveau modes de reproduction (pan-ambio, etc.) qui compensent (soi-disant) les faiblesses des uns et des autres et dont Robin Miller (qui possède un studio en angleterre) s'est fait le champion. Voir son site ici pour plus de détail :
http://www.filmaker.com/
http://www.filmaker.com/papers.htm
Outre l'ambisonic qui permet de bien restituer un champ spatial en hypothèse de champ lointain (ondes supposées planes approximées au 1er ou 2e ordre par des harmoniques sphériques ou cylindriques), on peut citer la technique holophonique (Wave Field Synthesis) ainsi que le principe du BSC (Boundary Surface Control) que je ne développerai pas ici car trop complexe (pour le WFS, voir l'intro dans la thèse de Bruce Wiggins qui reste simple).
Passons maintenant à la reproduction DVD ou SACD en 5.1 conventionnel. Même si ce type de configuration a été parfaitement normalisée pour le placement des enceintes lors de l'écoute (ITU-R BS.755-1), on ne peut pas en dire de même de la part de la prise de son qui reste un domaine très ouvert, voir problématique d'un point de vue théorique. Juste pour exemple afin de ce faire une idée de l' "usine à gaz" que ce type de prise de son peut devenir, voir par exemple le travail de Benedict Slotte (de chez Nokia) dispo ici :
www.aes.fi/audiopaivat2004/B.Slotte.pdf
http://www.acoustics.hut.fi/asf/bnam04/ ... rs/o48.pdf
Si cela intéresse du monde, je peux également fournir par mail le pdf de 11.1 Mo (qui n'est hélas plus dispo sur le web) de l'intéressant travail de Magali Deschamps effectué à l'IRCAM et à Radio-France et qui s'intitule : Restitution de l'enveloppement en 5.1 : Optimisation du système "Hamasaki square" (l'Hamasaki square est une config particulière de micros pour la prise de son en 5.1).
Le principale problème de la configuration 5.1 de la norme ITU-R BS.755-1 pour la reproduction musicale est qu'elle est l'héritage de la même configuration utilisée pour la restitution du son "cinéma". Or, en son cinéma, les canaux arrières sont principalement des canaux d'ambiance, de réverbération ou d'effets ponctuels. Leur configuration angulaire rend difficile et peu efficaces des pan-pots latéraux ou arrière précis du fait du fonctionnement de nos oreilles. Il est donc difficile de virtualiser correctement des sources statiques ou mobiles sur les côtés ou l'arrière. Et le problème du sweetspot, même s'il est moins marqué sur l'avant grâce à l'enceinte centrale, reste vraiment très critique pour les côtés et l'arrière. Cette configuration est donc assez malheureuse d'un point de vue théorique pour la restitution musicale qui reste très solitaire (une personne ds le sweetspot) et rend difficile la prise de son et le mixage si on cherche à positionner des sources de manière stable et précise n'importe où dans le plan horizontal. Elle a néanmoins été adoptée pour des raisons évidentes de compatibilité avec l'install home-cinéma de la maison de "monsieur tout le monde".
Et l'avenir dans tout cela ????
Même si la config ITU 755 restera sans doute encore longtemps dans nos salons, la reproduction spatiale précise sur un large sweetspot reste un domaine de recherche très actif pour beaucoup de labo en audio et la France y participe largement. A titre d'exemple, on peut citer le très intéressant travail de DEA de Mathieu Guillaume en 2003 intitulé "Reproduction de champ sonore sur une zone étendue de l'espace" :
http://recherche.ircam.fr/equipes/repmu ... llaume.pdf
Ce travail (qui se poursuit actuellement en thèse) a pour objectif de restituer un champ sonore spatio-temporel sur un espace suffisamment large pour contenir un auditoire complet. Contrairement à l'ambisonic qui repose essentiellement sur la manière dont nous percevons le champ sonore, ce travail aborde le problème sous s'angle de la physique pure (mécanique des vibrations) et pas sous celui de la perception sonore humaine. Il pose le problème du codage du champ sonore pour une reproduction exacte sur un grand espace, de la prise de son associée ainsi que de la disposition des enceintes pour la restitution. Un exemple classique consiste à capturer le champ sonore tout autour du chef d'orchestre sur une zone de quelques mètres cube (la place du chef d'orchestre est souvent considérée comme la meilleure place en terme de spatialisation du champ sonore émis par l'orchestre) puis de le restituer à l'identique via des enceintes pour un petit auditoire situé dans une petite pièce. Tout le problème est alors d'optimiser le placement des micros et des enceintes pour dégrader le moins possible le champ sonore (néanmoins, à mon humble avis, les critères à optimiser pour minimiser cette dégradation devront à un certain moment sortir du contexte purement vibratoire de cette étude pour réintroduire les particularismes de la perception acoustique limitée de l'être humain afin de relacher quelques contraintes ...)
Pour les néofites de la physique vibratoire (telle qu'enseignée dans les écoles d'ing. de méca par exemple), il convient de sauter toute la partie A qui présente la modélisation physique (mise en équation) d'un champ sonore avec les contraintes théoriques associées pour sa restitution.
Il faut donc lire ce document à partir de la page 19 (partie B). Comme il est remarquablement bien rédigé et il ne faut pas hésiter à sauter chaque paragraphe "mathématique" car le résultat est ensuite expliqué de manière claire et compréhensible par tous. On ne peut qu'espérer que les personnes engagées dans ce travail arrivent à des résultats probants...
@+