L’imagerie auditive

L’ouïe

1/ L’ouïe et la vue

Implicitement, toute image procède de la vision. C’est dans l’œil que se forment les représentations des êtres et des choses et c’est dans la mémoire visuelle qu’elles se structurent, possiblement. L’imaginaire semble ainsi dominé par la vue, du moins dans l’expérience ordinaire. Pourtant, chaque modalité sensorielle transforme l’énergie excitatrice reçue (lumineuse, chimique, thermique, tactile-motrice, acoustique…) en sensations bien caractérisées. Ces sensations hautement différenciées s’organisent en images primaires dans des cortex spécialisés. La perception assemble de la sorte ces diverses images en une représentation unifiée, multi-sensorielle, voire sensori-motrice. Pour autant, l’image visuelle prévaut, car elle a le pouvoir ordinaire de se confondre durablement avec l’objet, ce qui lui assure un avantage décisif sur les autres imageries, reléguées le plus souvent à l’actualisation passagère ou très provisoire de telle ou telle propriété. C’est que la lumière enveloppe les objets d’un flux continu, accordé à l’objective persistance du monde.

Il s’ensuit que l’audible –en tant qu’imagerie rapprochée à décroissance rapide– déchoit au rang d’indice transitoire, tandis que le visible –en tant qu’imagerie à grande distance constamment disponible– se surpasse en “réel” hautement défini. Le plan frontal apparent –bien que dépendant du point de vue auquel il s’adosse– paraît s’émanciper de l’optique oculaire (interpositions, recouvrements, décroissance) pour constituer exactement un espace à trois dimensions. C’est à David Marr(1), neurophysiologue américain, que l’on doit l’explication de ce processus visuel, déroulé en trois étapes.

Selon David Marr, la lumière scanne d’abord le champ-objet avant de rebondir dans toutes les directions. La pupille de l’œil “sélectionne“ alors parmi les rayons réfléchis un faisceau incident, faisceau projeté en image bidimensionnelle sur le fond rétinien. L’information prise par la lumière à la surface des choses deviendra texture, couleur, position, mouvement et trajectoire, après analyse corticale de l’image rétinienne. Une première mise en forme commence dès le fond de l’œil : c’est, pour David Marr, le stade 2D de la vision. A ce stade, la pellicule rétinienne ne “voit“ que des plages différemment éclairées, des transitions de lumière, et génère des contours séparateurs(2). Ces données élémentaires, rétinotopiques, rejoignent le cortex via le nerf optique. Plusieurs modules perceptifs, fortement encapsulés –à faible pénétrabilité cognitive— établissent la position, les couleurs, le mouvement, le relief, la texture et les ombres dans ce qui émerge comme scène visuelle primaire, égocentrée en 2D et demi, selon la terminologie étonnante de David Marr. Qu’est donc le 2,5 D ? C’est l’étape intermédiaire vers le 3D, marquée essentiellement par la prédominance du visuel en tant que tel, c’est-à-dire par l’aspect momentané, contingent et réducteur, subordonné au point de vue. Visuellement parlant (en 2,5 D) vous n’apercevez que ce qui vous fait face, vous ne voyez pas les dos ; certains objets en masquent d’autres, totalement ou partiellement.

Le photographe reporter –qui travaille en 2,5 D, monoculaire de surcroît– doit sautiller de tous côtés, à la recherche d’un arrangement optimal des apparences, d’une composition distribuée, d’une mise en perspective (le fameux “instant-déclic“ d’Henri Cartier-Bresson). La vision monoculaire en 2,5 D est en effet fortement restrictive, figée dans un aspect égocentré. Il ne viendrait du reste à l’idée de personne de se pencher ou de se déporter de côté pour voir ce que cache un avant-plan dans une image. D’où l’importance de la dernière étape dite 3D, soit le moment où le point de vue égocentré disparaît, où les volumes réels se reconstituent en entier, centrés sur eux-mêmes, débarrassés du caractère réducteur inhérent au 2,5 D.

Les données visuelles sont finalement reprojetées à leur place exacte dans le champ-objet, comme si la lumière entrée en rétine était renvoyée automatiquement à la source, pour se recoller à la surface des choses et envelopper complètement les volumes, leur donner une taille adéquate, une couleur stabilisée, c’est-à-dire une existence d’objet et non d’image. En d’autres termes, l’espace et ses volumes sont objectivés en vraie grandeur, en exacte position : quand je conduis ma voiture, quand je descends un escalier, ça marche, je ne me casse pas la figure. Le « réel 3D » se confirme en effet à tout instant par l’expérience tactile, haptique ou locomotrice. Pour autant, un tel espace reste à interpréter : le déjà connu doit nécessairement s’appliquer sur le perçu.

Admettons alors l’objectivité de l’image photographique [en termes spatiaux et lumineux] : quand un douanier vous réclame le passeport, il voit la photo d’un visage inconnu. Il est obligé de comparer l’original (vous en 3D) et la copie miniature (en 2,5 D compressée 2D) pour établir une ressemblance et valider l’identité. Il compare en fait deux images : l’une, travaillée par le cerveau, est appelée « réel », l’autre est dénommée « signe iconique » ou même « analogon ». Quand un chirurgien remonte une artère avec son endoscope, il faut espérer en l’objectivité spatiale et lumineuse de l’image-vidéo, seule guide pour le travail des mains. L’image 2,5D condensée en monoculaire 2D doit être cependant interprétée avec habileté pour y retrouver le 3D du « réel ».

Admettons alors aussi la subjectivité de l’image [en termes d’interprétation ou de contexte], puisque la signification qu’on lui prête dépend des états antérieurs de connaissance, de méconnaissance ou d’ignorance du sujet qui la regarde… Deux fois subjective ! Une fois à la prise de vue, où le photographe dispose d’un contexte (tant spatial que temporel) tout en étant mu par un projet, une démarche. Une seconde fois à la restitution, quand le spectateur, ne pouvant s’appuyer sur les données amont, aval ou à l’entour mais seulement sur l’entrelacs interne des figures et des fonds, sur la mise en perspective hiérarchisée des premiers et des derniers plans, sur l’axialité des visages et des corps, doit finalement projeter du sens en se basant sur des connaissances directes ou indirectes.

Que l’on soit en 3D ou en 2,5 D, l’interprétation –si rapide soit-elle– est convoquée : les apparences nous mènent aux réalités sous-jacentes, à un invisible caché/montré par le visible. Tout dépend du régime de visibilité, soit de l’extériorisation ou de la contention des données internes. Instantanément, nous interprétons un regard, un mouvement des lèvres, un haussement d’épaules. Nous évaluons une configuration d’objets, une situation en mouvement ou en conflit. Mais l’intelligibilité du visible repose aussi sur les savoirs issus du langage, sur les découpages affectifs, symboliques ou conceptuels propres à la culture. Une bonne part de la réalité reste ainsi accessible aux aveugles, en raison du pouvoir qu’a le verbe de représenter le monde, y compris dans ses données sous-jacentes, dans ses relations les plus cachées, inaccessibles à la vue. Pour autant, par sa vitesse d’analyse, par la saisie instantanée des données qui jalonnent ou traversent l’espace, l’œil s’empare du 3D comme d’un champ de possibilités pratiques, de décisions motrices ou tactiles –immédiates ou différées– sans qu’il soit besoin de recourir à une parole descriptive ou à un raisonnement conscient. L’information visuelle, massivement parallèle et continûment rafraîchie, libère la mémoire du souci des positions et des configurations en lesquelles pourtant le non-voyant engage chacun de ses instants. La cécité oblige alors à « écouter » l’espace-temps, en utilisant au mieux les possibilités de l’oreille et de la mémoire, en acceptant l’information auditive telle quelle est : irréversible, séquentielle, incomplète.

Si l’audible reflète en effet l’activité du monde environnant, c’est seulement à une distance réduite, limitée par la puissance ou l’intermittence des émissions sonores. L’écoute du non-voyant est de la sorte protéiforme et changeante, imprévisible, toujours menacée d’incomplétude, alors que le regard du voyant se pose sur un déjà-là accessible, au près comme au loin. En revanche, l’imagerie auditive se fait omnidirectionnelle (et non pas seulement frontale), et, malgré une portée limitée ou une brièveté imprévue, énergétique (de pianissimo à fortissimo) et spectrale (sur dix octaves), de sorte qu’elle excelle à rendre compte autrement des processus en jeu.

Car l’audible est énergétiquement représentatif du dehors et même du dedans des choses. A l’extérieur : frottements, articulations, percussions de contact, forces et mouvements. Le profil énergétique peut représenter et détailler –en prenant son temps– une action précise. A l’intérieur : les résonances indiquent d’invisibles cavités ; la masse révèle les dimensions du corps sonore ; la densité spectrale traduit l’intensité mise en jeu ; la qualité des transitoires traduit la souplesse ou la rigidité des matériaux ; les formants renseignent sur la matière en vibration. On se souvient du stéthoscope –toujours actuel– et des précieux renseignements qu’il donne sur le cœur ou la respiration(3). Tout dépend du transfert mécano-acoustique d’informations : la sonorité, le grain, le contour, la profondeur de modulation, la masse, le timbre révèlent l’objet-source d’une manière plus ou moins forte, plus ou moins claire.

Parler des bruits, c’est évidemment parler de nous, les humains, animaux à parole, voyants et non-voyants : souples et silencieux, nous ne faisons du bruit qu’en entrant en contact avec les êtres et les choses.

2/ Le réel, le sonore et l’imagerie auditive

Issue des vibrations mécaniques (le réel), l’émission acoustique (le sonore) atteint l’oreille, où s’éprouve la polyesthésie auditive (grain, masse, hauteur, contour…), reliée aux autres qualia du sensorium humain (couleur, tactilité, mouvement, chaleur…). L’évènement sonore enclenche une image –pas seulement visuelle, comme on le verra– aussitôt rapportée à son origine, à la fois spatiale et temporelle : un mouvement routinier, un incident, les phases d’un processus. Une fois identifié, l’objet-source “accroche“ une représentation supra-auditive, assortie de propriétés pratiques en devenir. Cependant l’avancée incessante des données –tant visuelles qu’auditives– amène à de nouvelles inférences, à de nouvelles projections. Mues par un principe de développement temporel, ces postulations –à peine conscientes– s’insèrent ipso facto dans la chaîne des causes et des conséquences, dans un jeu de traces et d’attentes.

Intermittente, continue ou isolée, l’émission acoustique reflète nécessairement une cause énergétique : naturelle (tempête, bord de mer…), sociale (circulation, travaux…) ou domestique (bouilloire, sonnerie…) La plus intéressante est l’activité humaine : d’ordinaire souple et silencieuse, l’énergie bio-musculaire se fait entendre à travers un bruit (choc, résonance, frottement…) plus ou moins intense, lequel déclenche en retour l’écoute causale. Le matériau sonore est comme oublié dans le “pourquoi” de son émission acoustique : le geste volontaire ou involontaire. Il n’en est pas moins efficient, par son timbre, son grain, son profil énergétique, sa “facture”. Epais ou léger, grave ou aigu, lisse ou grenu, percuté ou résonant, le son marque l’auditeur par une emprise sensorielle (polyesthésique) pour mieux figurer la chaîne causale d’où il procède. En principe, il suffit que le matériau sonore et sa facture désignent clairement l’énergie motrice (la cause des vibrations) et le point d’application (l’objet bruissant). Mais comme le son est éphémère, (parfois très bref, souvent passager), l’image auditive laisse derrière elle l’ombre d’un silence, cette sorte de silence qui prête au doute ou au suspens. Ou alors le son est ponctuel (parfois très localisé, souvent fragmentaire) et l’image auditive ne représente que très partiellement l’objet-source. Quelqu’un a remué un objet, fait quelques pas… On a identifié une présence, une présence vivante, réservoir d’intentions diverses, prêtes à s’actualiser.

Il est vrai que le sonore ne reflète la cause physique qu’à travers un mode de production mécano-acoustique (m.d.p.m.a). Percussion gaz sur gaz (air comprimé, détonations); gaz sur solide (sons éoliens) ; liquide sur liquide (gouttes de pluie dans une flaque); solide sur liquide (rames dans l’eau); solide sur solide (marteau, chocs de toutes sortes)… Y ajouter les états intermédiaires (mou, visqueux, granuleux…). Poursuivre avec les frottements (micro-percussions rapprochées en texture), les articulations (actions composites ou démultipliées) et les résonances éventuelles (formants acoustiques, réactivité de l’objet). Il y a donc une infinité de “m.d.p.m.a“, qui tous appellent une “contre-lecture inverse“, allant cette fois de l’acoustique à la mécanique. Tchoc, bzzzz, plouf, drrring, iiii-tonk !, vrâooummm… D’où une certaine imprécision, propice à l’incertitude, voire au fantasme.

Il est intéressant de faire un détour par le cinéma : ce dispositif, en rétrécissant le monde sensori-moteur aux deux dimensions de l’ouïe et de la vue (et même à une seule dans le cas du son-off) “s’approche“ paradoxalement de la réduction sensorielle qu’opère la cécité. Certains cinéastes ont su accommoder le rapport image acoustique/objet-source et soulever ainsi les puissances de l’imaginaire –sinon de la constitution hypothétique via la suppléance mentale– grâce au réglage du flou et du net dans l’image auditive. Mais après avoir reconnu l’objet (partiellement ou complètement) le spectateur doit encore reconstituer ou atteindre la cause, et identifier, à travers le “geste instrumental” (l’enveloppe dynamique du son, l’énergie mise en jeu), le facteur déclenchant.

3/Le régime d’audibilité

Comment l’image sonore émise à l’entour représente-t-elle à la fois l’objet mis en vibration et, aussi bien, le processus causal de cette mise en vibration ? Avec cette première question, on atteint déjà à la complexité du monde auditif. Tout d’abord, on ne peut ignorer la diversité des modes de production mécano-acoustiques [m.d.p.m.a.] évoquée ci-dessus : amplitude, vitesse, durée, mode d’attaque de « l’agent causal » sur l’objet, réactivité de cet objet, couplage à l’air ambiant.

Ainsi l’imagerie éolienne [soit le frottement d’un gaz sur des solides ou des liquides] constituerait à elle seule un sous-ensemble de l’imagerie auditive. Le vent violent, le zéphyr léger, la bourrasque, le coulis, les turbulences, sont autant de modes d’attaque, vers l’huis entrebâillé des portes, à la surface de la mer, au travers des branchages et des arbres, ou même des fils électriques, pour ne citer qu’eux. Tout autre est l’imagerie des écoulements liquides, de la pluie (percussion des gouttes sur les surfaces solides ou liquides) au bruit des tuyaux et des canalisations. Certains objets sont “attaqués“ simultanément sous plusieurs modes : aux frottements des pneus sur la route (sèche ou mouillée) s’ajoutent le régime du moteur (stable, en accélération ou décélération) modulé par l’éloignement ou le rapprochement (effet doppler). Autant de contre-lectures possibles !

En second lieu, on peut s’interroger aussi sur la manière dont la surface émissive –ponctuelle, pluri-ponctuelle ou étendue– rend compte du volume entier de l’objet (mode de représentation spatial), et même sur la façon dont la durée de l’émission –furtive, en pointillés– rend compte de la longueur, de l’intermittence, ou de la brièveté du processus réel (mode de représentation temporel).

Ainsi le mode de représentation spatial se donne à travers différents cas de figure : l’objet est représenté par un fragment (synecdoque), en partie, ou totalement (exemple : le frottement-percussion de la cuiller sur les bords de la tasse) ; l’émission est simple (ponctuelle, surfacique), composite (multi-ponctuelle, pluri-surfacique), ou entière ; l’émission est homogène (sons semblables, de même nature) ou hétérogène (sons multiples et différents) ; la source est décomposable en plusieurs segments articulés (co-modulés) ou indépendants (dis-modulés), émettant synchroniquement ou en décalé ; l’émission est figurale (son écorce ou son coque), intra-figurale (état interne), configurale (entrechoc), extra-figurale (sollicite l’acoustique des lieux) ou mixte (mélange des sources) ; l’émetteur est en mouvement ou fixe (position, vitesse, direction, trajectoire).

Le son représente en outre, dans son décours, la diversité des causes énergétiques mises en jeu. Mais cette représentation –souvent incomplète, inégale, fragmentée– ne reflète pas linéairement les forces en présence, à proportion de leur importance. Ainsi la cuiller tournant dans la tasse devrait représenter toutes les phases de la dégustation d’un café ! Certaines s’activent en silence (mouvements humains), d’autres sont très bruyantes, non modulables (chutes d’objets).

En sorte qu’il est impossible d’aborder le mode de représentation temporel sans examiner –de quelque manière– le chronogramme ordonné des énergies mises en jeu, et, conséquemment, le passage du monde physique au monde acoustique. Complexe(4)! On peut cependant avancer l’évidence minimale d’une tri-causalité : action, réaction, champ de pesanteur. “Pousser une porte” implique une énergie potentielle (vaincre l’inertie, la masse), une énergie cinétique (stockée par la masse dans une vitesse), une énergie réactive (rebond sur un butoir ou sur le mur) et un frottement (audible ou non sur les gonds), dû au poids de la porte… Trois types de causes, donc, déterminant en bonne part le résultat sonore.

“Sortir ses clefs, ouvrir la serrure, pousser la porte et la refermer” implique une succession de sons dont certains sont inaudibles (trop faibles), et donc appelés “silences” (quand ils ne sont tout simplement masqués par les plus forts) et d’autres très saillants, selon le couplage, ou le transfert de la mécanique vers l’acoustique. Chacune des émissions sonores est en effet reliée à la réalité particulière des forces co-agissantes et réagissantes. L’agent actif (durée, régularité, rythme, mouvement propre) se déploie en une ou plusieurs phases, écourtées, suspendues, articulées, en cascade… L’agent réactif (masse, raideur, souplesse) se fait entendre –élastique ou amorti– par des frottements, des percussions, des rebonds, des résonances… L’agent permanent (la pesanteur) ajoute sa propre dynamique : glissement progressif, chute, éclatement, impacts multiples … etc.

Enfin l’objet-source fait entendre ses propriétés acoustiques : masse, cavités, état de surface, fragilité, volume, déformations élastiques ou irréversibles, roulement…etc. On devrait pouvoir reconnaître aussi bien la dureté relative d’une baguette qui frappe des casseroles, l’énergie du geste frappeur et aussi bien la taille des dites casseroles. On devrait aussi presque « entendre la forme » d’un tambour… Tout dépend –on va le voir– de l’expérience pratique.

Une autre question vient alors nécessairement à l’esprit. Comment l’événement physique –déjà “réécrit“acoustiquement– se trouve-t-il“retranscrit“ – sensoriellement , cette fois– par l’appareil auditif ? Regardons le tympan et la petite membrane spirale logée dans le limaçon de l’oreille interne. Tout n’est pas retranscrit, loin s’en faut ! Si certains domaines de fréquences et d’intensités sont mieux traduits que d’autres, on n’entend jamais le spectre de puissance d’un son(5), mais seulement l’ensemble des hauteurs démasquées, communément appelé timbre …

Le plus important, me semble-t-il, réside dans l’incroyable “traduction“ de l’onde cochléaire (initialement fréquences et intensités sur site bio-élastique) en qualia, c’est-à-dire en “éprouvés sensibles“ hautement différenciés (masse, grain, hauteur, timbre, allure, profil dynamique, etc…) dont Pierre Schaeffer –le premier– dressa la liste, allant jusqu’à préciser les corrélats physiques de ces différents ressentis, à la base du sensorium auditif. L’apport qualitatif et différenciateur de ces divers éprouvés sensibles –au delà d’une simple transduction des fréquences et des intensités– est si considérable que les pertes en quantité ou qualité– dues aux effets de masque– passent quasi-inaperçues, du moins tant que l’intelligibilité n’est pas menacée. Heureux qualia ! Bien combinés, ils donnent accès aux plaisirs de l’ouïe.

Regardons un peu plus haut, vers le cortex : l’assemblage des qualia donne naissance à des objets spatiaux que nous construisons par regroupement et séparation des données(6), tandis que nous établissons des relations de continuité entre évènements séparés par des laps (quelques secondes, minutes ou heures), jusqu’à structurer ou sous-structurer le temps en de multiples flux, globaux ou momentanés. On pense aux théories de la Gestalt, appliquées cette fois à l’audition.

Les instants sonores successifs s’assemblent en figure-flux temporelle, figure qui se précise ou se délite dans la durée, se développe ou s’interrompt par moments, non sans avoir “imagé“ ses inférences, vers l’amont (causes) ou vers l’aval (conséquences). De fait, le grincement d’une porte n’est pas écouté pour lui-même, ni même seulement dirigé vers sa cause (la personne qui entre ou sort) mais tout aussitôt orienté vers l’instant suivant, comme accomplissement conséquent de l’instant présent. On “voit” la nouvelle situation se profiler, avant de la constater visuellement dans les faits.

En même temps, les relations inter-évènements –le contexte– induisent un cadre interprétatif général, qui (ré)oriente la compréhension de chacune de ces figures-flux. D’autant que l’ouïe reçoit l’aide puissante de la vue, et qu’il est absurde d’imaginer une séparation entre les deux champs de perception. Si l’imagerie auditive apporte ses propres qualia, c’est pour rejoindre ceux de la vision (contour, couleur, texture, mouvement, etc…), et plus largement ceux des autres sens (et même ceux –effecteurs ou propriocepteurs– de la motricité) en raison du mélange polyesthésique à l’œuvre dans les représentations humaines. Sans doute est-il impossible de se représenter une situation sonore d’un seul coup, instantanément, sans profiter d’une interaction forte avec d’autres données, internes ou externes, proprio ou extéroceptives. Il s’ensuit que des savoirs visuels imprègnent les perceptions de l’ouïe (la constance d’objet, par exemple, pendant les intervalles silencieux) tandis que des savoirs non visuels imprègnent les perceptions de la vue (invisible, un son creux appelle un imaginaire de suppléance). En réalité, en matière d’audition, une bonne part de la pertinence interprétative (attributs cognitifs ou affectifs prêtés aux sources sonores) provient de savoirs antérieurs expérimentés et de l’appréciation adéquate du contexte, puisqu’il faut entrer dans un jeu de postulations reliant l’instant précédent à l’instant suivant, le lieu actuel au lieu ultérieur, tout en révisant continûment la chaîne des causes et des effets.

Il n’empêche. Pour reprojeter vers l’objet-source tous ces attributs, toutes ces inférences, il est essentiel de le reconnaître ! Or, si l’on totalise l’ensemble des transformations soustractives qui vont de l’événement physique réel à sa mise en forme acoustique (parfois proche du silence), et de l’événement sonore (à son apparaître auditif (entamé par les effets de masque, sinon par les bruits ambiants), l’audibilité apparaît généralement rétrécie par cette double réduction. L’élucidation auditive est très souvent contrariée par l’éphémère, le passager, l’épars, soit par un régime d’audibilité quelque peu obscur(7). Finalement on se demande comment, avec si peu d’informations émergentes, un auditeur réussit à reconnaître un son, condition préalable –redisons le– de toute interprétation significative, comme de toute mise en chaîne causale.

On a déjà aperçu les avantages [différenciateurs] que l’on peut attendre des qualia. Un autre facteur –très important, et assez méconnu– facilite la reconnaissance auditive : la motricité corporelle. L’œil écoute, certes, mais aussi bien, le corps entend. Un passage par la motricité s’impose donc, en commençant par la parole.

4/ De la parole en particulier et du mouvement en général.

Pour identifier et reconnaître un son, il suffirait, pense-t-on, de détecter et d’extraire certains traits pertinents, certains indices. Les uns relèveraient de l’enveloppe énergétique (profils d’attaque ou d’extinction, amplitude, allure, durée), les autres du contenu spectral (densité, hauteur et position des formants, fluctuations du spectre).

Cependant le monde des vibrations, on l’a vu, n’est pas directement audible en tant que tel. Il se reflète en qualia, sorte d’atomes sensoriels dont le regroupement moléculaire aboutit à la figure-flux, à la fois image (par ses qualia combinés) et objet spatio-temporel (en raison de sa reprojection exacte en 3D). Ainsi la masse, le profil, la hauteur, le grain, le timbre semblent appartenir à l’objet-source, alors qu’ils ne sont que les “transcriptions phénoménales“ des vibrations parvenues aux tympans ! Ces transcriptions semblent néanmoins plutôt robustes et assez bien corrélées aux propriétés mécano-acoustiques de la source en activité. En se reliant par ailleurs à d’autres sensations et inférences, l’auditeur accède à une représentation multimodale plus complète, associée aux propriétés pratiques de l’objet, recrutées et orientées par le contexte.

Il apparaît aujourd’hui que l’extraction des indices procède de deux systèmes complémentaires : l’un ausculte le profil temporel, l’autre le timbre. Cette dualité “contour-matière” n’est pas sans rappeler la vieille distinction “morphê-hulê”, chère aux philosophes de l’antiquité. Plus clairement, le cortex (pré)moteur examine la dynamique temporelle, la masse évolutive et l’énergie en mouvement, tandis que le cortex auditif s’intéresse davantage au timbre, au grain, à l’emplacement et la couleur des sons. Il y a une origine à ce double parcours : tous les sons que nous produisons –et que nous entendons, ipso facto– sont corrélés à notre activité motrice : la marche, l’effort musculaire, le maniement d’outils ou d’instruments de musique, et bien entendu, la voix, le cri, le chant.

Ainsi l’influx phonatoire et l’influx auditif se régulent-ils mutuellement pour stabiliser une parole précise, grâce à un réseau d’interneurones sensori-moteurs, jusqu’à obtenir l’intonation et le phrasé intentionnés. Le vouloir-dire est exactement ajusté, en sorte que le geste vocal devient aussi important que le texte proprement dit. Le ton, les accents, le rythme d’un propos sont parfaitement ressaisis par l’auditeur, simplement parce qu’étant lui aussi locuteur, ils correspondent à des gestes vocaux déjà vécus et mémorisés, ou à des profils d’expression déjà éprouvés au moment de parler.

Une théorie, née aux Etats-Unis dans les années 50, sous l’impulsion d’Alvin Liberman, a exploré ce domaine. La théorie motrice de la parole perçue [ou TMPP] établit que la perception de la parole ne doit pas être recherchée seulement dans la “surface acoustique“ des mots, mais aussi dans la “structure articulatoire sous-jacente“. La chaîne parlée tient en effet en une série de passages : du geste intentionnel à la commande motrice, de la commande motrice aux déplacements d’articulateurs (langue, mâchoires, lèvres), avec pour résultat final une parole. Il s’agit alors, pour estimer les gestes intentionnels à partir du son proféré, de faire le chemin inverse, c’est-à-dire de faire dépendre la reconnaissance vocale tant du cortex (pré)moteur, memento-agenda de gestes vocaux bien connus, d’articulations apprises, que du cortex auditif, répertoire de syllabes et de vocalisations.

Si le chemin direct (du geste à la parole) est bien spécifié par la théorie, le chemin inverse (de la parole au geste) pose encore quelques difficultés aux chercheurs. Cela étant, une récente théorie vient compléter et élargir la TMPP, autour du concept de « neurones-miroirs » appliqué aux mouvements du corps humain. Pourquoi, lorsqu’on voit quelqu’un prendre un verre d’eau et le soulever, en déduit on automatiquement qu’il a soif et qu’il va boire ? Pourquoi interprétons-nous si justement le jeu d’acteur, qu’il s’agisse du regard, du visage ou des attitudes corporelles ? Sans doute, parce qu’acteurs nous-mêmes, ce que nous voyons des agissements d’autrui –la “surface visuelle“ en mouvement– va se réfléchir aussi dans le schéma corporel, soit dans la “structure articulatoire sous-jacente“…

En 2001, des chercheurs de l’université de Parme ont montré que le seul fait de regarder des mouvements de la bouche, des mains ou des pieds, active des zones impliquées dans l’exécution de chacun de ces mouvements(8). En d’autres termes, l’analyse des mouvements humains dépend tout autant du cortex visuel que du cortex (pré)moteur, lequel “connaît“ – de mémoire motricienne– les règles pratiques qui contraignent nos gestes, et aussi bien les phases successives d’une action. “C’est ce que j’appelle des représentations partagées, précise Jean Decety, chercheur en neurosciences. Un même réseau neuronal (dans le cortex prémoteur et pariétal) s’active lorsque je vois autrui agir, lorsque j’imagine cette action et lorsque j’agis moi-même”.

L’idée –pas si spéculative– serait alors de généraliser le concept de « neurones-miroirs » à l’ensemble les relations sensori-motrices, en l’appliquant en particulier au domaine sonore. En sorte que tous les sons issus de l’activité corporelle, et plus précisément ceux issus des pratiques consolidées, seraient doublement mémorisés, et donc doublement reconnaissables, soit par leurs qualia, soit par leur profil énergétique/temporel. A la fois auditifs et moteurs, ces sons ne souffriraient plus la moindre approximation de timbre ou de jeu, car toute formule acoustique inexacte serait confrontée à la précision avérée de la “mémoire motricienne“ (ou procédurale), à laquelle se rattache la justesse et la vérité de nos actes, qu’ils soient volontaires ou involontaires(9).

On pourrait suggérer dans ces conditions une autre façon de classer les sons : il y aurait ceux –très précis– qui rentrent dans notre expérience sensori-motrice (tactile, haptique, locomotrice); ceux –moins évidents– qui se rapportent à des sources vues et entendues mais sans écho particulier dans notre pratique ; d’autres encore, qui ne renvoient qu’à une expérience auditive (sons nocturnes ou inaccessibles à la vue) ; ceux , enfin –inouïs ou inconnus– qui convoquent un imaginaire fondé sur l’association ou la ressemblance.

5/ La dimension motrice

A la fois organisée et organisante (selon la formule de Piaget), la machine nerveuse se distingue par deux formes de “dialogue”: l’un, immédiat et direct, sensori-moteur, pris dans les contraintes de l’environnement et l’autre, cognitif, opérant sur les représentations figuratives ou symboliques des réalités physiques, libéré des contingences de l’instant. Corollairement, deux modalités de gestion motrice se distinguent : l’une “réactive”, devant répondre aux sollicitations immédiates de la situation, et l’autre “prédictive”, échappant à la réactivité immédiate(10).

Alors que la modalité réactive semble se rattacher tout naturellement à un répertoire stabilisé de prédispositions et d’habitudes (variables d’un individu à l’autre), la modalité prédictive parait devoir requérir un certains nombre d’inférences (encore plus diversifiées), hantées par la fragilité du souvenir. Le set attentionnel (expectations) et le set moteur (stratégies, planification de l’action) collaborent à la décision motrice, en générant une esquisse, une représentation interne du mouvement intentionné, absolument nécessaire au déclenchement de l’action. C’est justement cette représentation interne –esquissée mais précise– qui, au cinéma, accompagne et surligne le mouvement des personnages, en une sorte de présent élargi.

Prenons l’exemple d’un banal son off –acousmatique (11)– tel qu’un bruit de pas. Banal en apparence ! En réalité, très humain, très inscrit dans l’expérience quotidienne. Trop précis en tout cas pour être relégué dans les approximations d’un “son d’ambiance“. Car ce bruit de pas déclenche sept images plus ou moins conscientes : 1/ la chaussure (savate, basket, mocassin, talon-vertige…), 2/ le sol (gravier, gadoue, macadam, parquet…), 3/ l’acoustique des lieux (plein air, trottoir, local petit ou grand, réverbérant ou feutré…), 4/ la personne (qui marche ?), 5/ le jeu (avec détermination, furtivement, en traînant les pieds ou d’un bon pas, en trébuchant…), 6/ la provenance (d’où vient-elle ?), 7/ la destination (où va-t-elle ? quelles sont ses intentions ?).

Ces différentes images n’ont évidemment pas le même poids, le même retentissement (12).

Les deux premières (et la cinquième aussi bien) dépendent des compétences perceptives et motrices de l’auditeur. Il s’agit d’opérer une lecture inverse du mode de production mécano-acoustique , opération d’autant plus facile que la marche procède d’une pratique routinière. Habitué à entendre le rythme de ses pas corrélé à ses intentions motrices (plus ou moins conscientes), le spectateur “décode” le frottement, la percussion et la sonorité qui en résultent pour faire surgir la charge intentionnelle qui leur correspond.

Il en va sans doute ainsi de toutes les activités bio-musculaires courantes : les « neurones-miroirs » établissent des corrélats réversibles entre influx moteurs (énergie gestuelle, enchaînements) et influx auditifs résultants (dynamique sonore, formants, rythme) comme autant d’automatismes cognitifs hérités de l’expérience. Et ces corrélats sont, somme toute, assez solides : on se trompe rarement sur l’intention échappée d’un geste, même s’il est involontaire. La façon de marcher est finalement entendue comme un jeu d’acteur, porteur d’intentions (pré-)conscientes.

La troisième image dépend des compétences auditives : il s’agit de relier l’acoustique des sons réfléchis au dimensionnement du lieu. Faute d’apprentissage adéquat, les réflexions précoces, le traînage, la durée colorée de la réverbération sont plus ressentis qu’utilisés comme mesurage spatial. Le spectateur est obligé de se rabattre sur ce qu’il voit à l’écran et de l’extrapoler vers l’espace off.

La quatrième, la sixième et la septième images dépendent du contexte. Qu’a-t-on déjà vu de ce personnage ? Une silhouette, un visage, une action entière ? Marchait-il déjà dans le plan précédent ? Avait-il– annoncé son départ ou son passage ? Que sait-on de lui ? A l’évidence, il s’agit là d’un réglage mémoriel apporté par la mise en scène. Mémoire des situations et de leurs enjeux, mémoire des personnages, de leurs désirs et intentions. Possibilités, hypothèses, inférences diverses. C’est dire à quel point les connaissances préalables du spectateur, en se projetant sur l’action, participent aussi à la compréhension du film, sans qu’il soit nécessaire de tout expliquer.

Quand “l’évènement auditif” ne s’origine plus de la marche, mais de gestes mettant en jeu des accessoires ou des truchements inconnus, la mémoire motricienne sollicitée par les neurones-miroirs restent muette : comment reconnaître –toujours en off– une glissade à skis ou un geste instrumental, sans la pratique correspondante ? Comment comprendre les mouvements/bruits d’autrui si on ne les a jamais effectués soi-même ? Certains films ont construit un suspense sur l’impossibilité d’identifier un son, dont l’allure –soigneusement construite – semble émaner cependant d’un humain. Seul un passage synchrone à l’écran permettra au spectateur d’atteler une corrélation forte et durable entre l’image (enfin vue) et la source (déjà entendue). C’est ainsi que nombre de sons humains –imaginaires ou réels– ne sont connus que par les films : chariots de westerns, épées-lasers, gifles, coups de poing etc… Leur connaissance ne transite, d’une séance à l’autre, que par la réitération du même ancrage audio-visuel, sans autre vérification corporelle.

En fait, beaucoup de ces sons trouvent assez facilement écho dans les schèmes moteurs, en raison des nombreuses traductions audito-visuo-motrices réitérées jusqu’à imprégnation : lors qu’un son suffisamment réitéré permet de se figurer une action, le cortex prémoteur l’inscrit comme les autres dans un ressenti corporel, dans une sorte de proprioception résiduelle, quasi-introjective. Inversement, une fois obtenue l’activation de certains réseaux pré-moteurs –l’imaginaire des actions– des représentations auditives ou visuelles surgissent, en raison du caractère prédictif et intentionnel de la motricité. On voit trop bien chez les enfants à quel point l’élan corporel construit un imaginaire projectif, assorti de représentations passagères, secondairement renforcées par des onomatopées, ou des bruits de bouche. Il n’y a pas, en ce jeune âge ludique et imaginatif, de séparation entre d’un côté les figures pré-motrices ou visuelles, et, de l’autre, les figures auditives. De la même façon, chez les créateurs, c’est parfois en se mobilisant corporellement que les idées viennent, accompagnées d’images et de sons.

Le cinéma reprend partiellement à son compte l’importante circulation idéo-motrice à l’œuvre dans le jeu d’enfant ou le rêve éveillé. En partie, en effet, puisqu’on y trouve plus de sons producteurs d’images que d’images productrices de sons (13). Cette asymétrie est à rechercher dans le réel lui-même : tous les mouvements humains, loin s’en faut, ne sont pas “sonorisés“, beaucoup restent silencieux. Et pourtant les conditions d’une circulation tripartite entre le sonore, le visuel et le moteur sont bel et bien réunies, du moins dans l’imaginaire.

De fait, et de plus en plus, le cinéma “sonorise“les bougés corporels, soit par la musique (comme dans le dessin animé) soit par des bruits musicalisés (épée-laser, schuuuuuooû… comme dans les films pour adolescents). In, de tels bruits soulignent des actions normalement silencieuses, donnant au spectateur un supplément auditif, une plus-value énergétique, en accord avec les lois de la motricité. Off, ils prolongent les gestes des personnages provisoirement invisibles, y ajoutant de nouvelles significations descriptives, puisées dans la polyesthésie auditive. De chimériques formules sonores s’accouplent de la sorte aux mouvements fantastiques ou irréels, soudain réalisées à l’écran. Une super-héroïne peut sauter de toit en toit, un super-héros peut casser des briques avec fracas ou s’envoler soudain dans les airs : personne ne sera jamais ni dans leur peau ni dans leurs muscles (14). Et pourtant le jeune spectateur y croit : c’est le retour au “tas de sable“. Rappelons-nous : c’est là qu’on s’inventait des scénarios tout-puissants, des performances extraordinaires, des “pour de vrai“.

6/ Le champ imaginaire

Les sons –forcément plausibles dans les situations ordinaires– cherchent à s’accrocher à leurs images par attelage synchrone des flux acoustique et optique. Entrechoc (contact), effet doppler (vitesse), résonances (cavités), glissando (translation) et articulation sonore (liberté de mouvement) se renforcent mutuellement, entrelaçant simultanément les données visuelles et auditives. S’affirme ici la complémentarité intermodale : tantôt l’image profite du timbre et de la dynamique des sons, tantôt le son récupère à son avantage les effets de sens induits par la vision. Pour autant, nul n’ignore la dimension imageante des sons seuls.

Chaque item sonore tend en effet vers un élargissement plurimodal en vue d’accéder à une représentation plus complète de l’objet, à la fois trans et multisensorielle.

Si l’on admet –d’une part– que toute variation interne d’un son (connu ou inconnu), que toute fluctuation temporelle peut se dériver mathématiquement (profil d’intensité, de timbre, de hauteur, de masse… ∂x/∂t), alors nombre d’objets sonores peuvent se simplifier en un substrat ordonné de dérivées successives et combinées, que certains auteurs ont nommé invariants transformationnels. Si l’on ajoute –d’autre part– que l’appareil auditif est justement équipé de neurones phasiques, [c’est-à-dire de neurones “dérivateurs“, assemblés en réseaux], il s’ensuit que de telles dérivées [relativement amodales voire sous-modales] peuvent trouver leurs sosies (des invariants transformationnels identiques) ou leurs correspondants (de même catégorie) déjà mémorisés dans d’autres cortex, sensoriels ou moteurs.

Aussitôt que détectée et associée, la dérivée homologue (non consciente en tant que telle) serait ainsi associée puis “intégrée” en image mentale dans un cortex spécifique, visuel, tactile ou proprioceptif, avec une relative liberté (15). De fait, chaque dérivée admettant une infinité de primitives, le résultat sera très diversifié : secret de la mémoire associative, aléas de la mémoire épisodique, insistance du subconscient. Les images associées, les frayages synesthésiques appartiennent au jardin secret des correspondances, mais aussi au contexte inducteur. En situation cinématographique, sous la pression des données narratives ou des émotions vécues avec les personnages, le résultat reste largement orienté par l’avancée du récit. L’image évoquée/ressentie n’est pourtant pas la même d’un spectateur à l’autre : elle s’est frayée un invisible chemin à travers un “réseau hyper-connecté” de souvenirs, diversement lestés par les affects et les désirs. En chaque spectateur, comme en chaque artiste, il y a bien ce nous culturel –social– en même temps que ce je personnel –totalement singulier– relativement inaccessible à la conscience.

Je ne saurais dire pour autant quelle forme prend l’image mentale chez un aveugle de naissance : le mélange de proprioceptions, de gestes et de déplacements d’air, de sensations haptiques ou tactiles, d’odeurs et de volumes, de chaud et de froid, de sec et de mouillé, de léger et de lourd, de texturé et de lisse, de sucré et d’amer, d’émotions et de souvenirs conduit certainement à un imaginaire plus riche, plus finement combiné dans ses interqualia, car la suppléance mentale, réparatrice de la vision manquante, développe à coup sûr une trans-sensorialité singulière, propre à susciter de nouvelles correspondances ou de nouvelles synesthésies entre les imageries respectives.

Pour finir, je voudrais insister sur l’agilité extraordinaire des imaginations pré-motrices, déclenchées –notamment– par la musique, au regard de la relative lourdeur des actes moteurs. Dégagé de la réalité visuelle, le corps rêveur et ailé de l’auditeur s’adapte au tempo, à la pulsation du morceau. L’imaginaire pré-moteur ne craint ni les fluctuations de vitesse, ni les passages virtuoses, ni les accélérés aériens en totale apesanteur. Il ne s’agit plus en effet de se caler sur les possibilités physiques et réelles du corps, sur le poids et la fatigue que combat chaque danseur, mais plutôt sur les utopies motrices de l’imagination, dont les limites semblent approcher celles de la vue (pouvoir séparateur temporel) tout en suivant nécessairement celles de l’ouïe (épaisseur du présent auditif).

Au fond, nous sommes depuis si longtemps hantés par un désir de bouger, si marqués encore par le décalage originaire entre le désir de faire et l’immaturité motrice des premiers gestes, que nous confions à nouveau à la musique le soin de nous faire agir mentalement en renonçant à l’action réelle, –exactement comme l’imagination pré-motrice renonce à l’action effective– pour mieux atteindre à la rêverie souple et véloce, aux accomplissements réparateurs. Le mélomane ému, parti à la rencontre de la musique, fusionne avec le moi profond du compositeur, à jamais sublimé/transposé dans son œuvre.

Dès lors, l’habileté motrice et virtuose du musicien peut conduire les fantaisies motrices de l’auditeur, traçant des trajectoires, des arabesques et des émotions à sa taille, bien au delà des limites corporelles. On peut donc remercier les interprètes de nous emmener aussi loin dans l’imaginaire avec une technique instrumentale parfaite (les doigts, les mains, le corps, la bouche ont connu les années de conservatoire). S’il n’y avait l’agilité extraordinaire de l’instrumentiste, que serait la musique ? Qui dialoguerait allegro presto avec la vivacité imaginaire ?

soutenir ZIN TV

Mis en ligne le 20 avril 2011

L’imagerie auditive

En lien :

Interview, reportage et documentaire

L’histoire du cinéma sonore est-elle seulement technique ?

Bibliographie concernant le documentaire

Entendre, écouter, agir…

Figures de la présence, figures de l’absence

L’alliance du feu (Harlan County U.S.A., Barbara Kopple)

Programmation du regard

Programmation du regard (suite)

Mots-clés