Entendre, écouter, agir…

Par Claude Bail­blé

Mots-clés

Le casque sur les oreilles, un ingé­nieur du son donne des indi­ca­tions à son per­chiste. Il se concentre sur son écoute, fait quelques signes. Le micro est dépla­cé, on le réoriente. Obser­vant la scène, le pro­fane –celui qui n’a jamais tenu un micro– se demande si ces gens du son fina­le­ment n’en rajoutent pas un peu. Pour­quoi tous ces réglages poin­tilleux ?

-250.jpg

Par Claude Bail­blé, ensei­gnant-cher­cheur, maître de confé­rences au dépar­te­ment Ciné­ma de l’université de Paris VIII et inter­ve­nant dans des écoles pro­fes­sion­nelles (INSAS, FEMIS, EICTV, etc) et col­la­bo­ra­teur de ZIN TV.

Aujourd’hui tout le monde (ou presque) fait de la prise de son avec… son télé­phone por­table. Le résul­tat n’est tou­te­fois pas ter­rible : « j’entends rien… qu’est que c’est que ce bou­can der­rière toi… ? Mais où tu es, là ?» dit l’un, « attends je vais à côté, au calme, je ne t’entends pas non plus » dit l’autre… C’est que ladite prise de son se fait en mono­pho­nie, avec un seul micro­phone, et sa res­ti­tu­tion avec un seul écou­teur, un écou­teur fai­blard qui n’arrive pas à cou­vrir le bruit ambiant… Alors on tend l’oreille, on se cale sur l’interlocuteur, sans se rendre compte que l’on parle trop fort dans l’espoir (tout à fait vain) d’obtenir un meilleur niveau en retour, soit une plus grande intel­li­gi­bi­li­té… Avec deux écou­teurs bien iso­lés, la situa­tion s’améliorerait com­plè­te­ment, la mono­pho­nie devien­drait presque plai­sante, mais qui le sait ?

Moins nom­breux sont les pos­ses­seurs de camé­scopes, mais ils ne sont pas rares pour autant. Des camé­scopes auto­ma­tiques qui se chargent du point, de la lumière et du son. La prise de son –sté­réo– se fait sans casque et sans ques­tions par­ti­cu­lières. Les résul­tats obte­nus sont for­cé­ment déce­vants : dis­con­ti­nui­té sonore de plan à plan, réver­bé­ra­tion exces­sive, bruits ambiants exa­gé­rés, plans sonores tou­jours très flous ou loin­tains, bruit du vent, intel­li­gi­bi­li­té réduite, écoute fati­gante… « Le son n’est pas bon du tout ! C’est bizarre, l’image est excel­lente » s’étonne-t-on. Avec une perche et un micro bien pla­cés, avec un casque de contrôle et une modu­la­tion bien réglée les choses com­men­ce­raient à prendre de l’allure. On s’approcherait évi­dem­ment de la pra­tique pro­fes­sion­nelle, laquelle a une autre his­toire.

C’est en 1930 que le son gra­vé sur cire rejoint le bord de la pel­li­cule. Jusqu’alors images et sons navi­guaient sépa­ré­ment, fai­saient bande à part, en quelque sorte, à la radio et au ciné­ma. Avec le par­lant, les voi­là réunis, mais le retard tech­nique et ergo­no­mique du son se fait entendre : micro­phones lourds, camions pour sons optiques, bande pas­sante limi­tée, aigus agres­sifs. Pour le docu­men­taire, c’est l’ère du tra­vail en stu­dio, du brui­tage en audi­to­rium, des com­men­taires enre­gis­trés en cabine. Il est dif­fi­cile en effet de trans­por­ter camé­ras blim­pées et camions-sons sur le grand pla­teau du réel, tan­dis qu’il est encore facile de por­ter une Paillard ou un Camé­flex jusqu’au fond de la jungle tro­pi­cale, ou à l’intérieur d’un conflit social. A la sor­tie de la deuxième guerre (1950), les pro­grès de l’électronique et l’arrivée de la pel­li­cule magné­tique vont per­mettre une finesse plus grande, un son plus doux, plus dyna­mique, plus stra­ti­fié, mais la mobi­li­té de l’appareillage res­te­ra limi­tée.

Daniel Craig, acteur incar­nant James Bond dans la série Casi­no Royale, en tour­nage aux Baha­mas

C’est seule­ment avec la venue du tran­sis­tor (et de son ali­men­ta­tion à piles) qu’un magné­to­phone presque léger, en tout cas por­ta­tif, va s’imposer. Conçu par Kudels­ki en 1958, le Nagra III devient l’instrument majeur de la prise de son : on peut enfin aller cher­cher les silences, les fonds d’air, les ambiances, les effets, les voix et les musiques aux quatre coins du monde, comme les opé­ra­teurs des frères Lumière l’avaient fait soixante-trois ans aupa­ra­vant. Des paroles jusqu’alors inouïes sont enfin enten­dues, enre­gis­trées, res­ti­tuées. Des pay­sages natu­rels, des scènes de rue, des guerres, des chu­cho­te­ments d’amoureux, des sons d’usine, des mani­fes­ta­tions, des danses rituelles… Bien avant que la mini-DV ne s’empare à son tour, en syn­chro­nisme obli­gé, d’images et de sons auto­ma­ti­que­ment liés, les explo­ra­teurs du sonore avaient sai­si, en pla­çant leurs micros au bon endroit, des scènes audi­ti­ve­ment claires, expres­sives et par­lantes, savam­ment com­po­sées depuis un ou plu­sieurs points de cap­ta­tion.

Tous ces pion­niers du tout ter­rain avaient appris que le choix du point d’écoute –on devrait dire point d’ouïe, par ana­lo­gie avec point de vue– est déci­sif. Que le sui­vi souple et fluide –à la perche– des sources sonores en mou­ve­ment garan­ti­rait une image sta­bi­li­sée en timbre, volume ou plan sonore, et de la sorte accep­table par l’auditeur, mal­gré la mono­pho­nie. Que la recherche de lieux plu­tôt silen­cieux per­met­trait d’ajouter après coup des sons seuls, des ambiances et des effets qui s’ajusteraient au mixage. Connais­sant le ren­du mono­pho­nique de leur outils, les pre­neurs de son des années soixante inven­tèrent ain­si les pro­cé­dures ins­tru­men­tales pré­cises qui ren­dirent le son vrai­sem­blable, c’est-à-dire à la fois proche et dif­fé­rent de ce que nous enten­dons. Suf­fi­sam­ment sem­blable, pour être cru et recon­nu, suf­fi­sam­ment dif­fé­rent pour aller vers une écri­ture sen­sible et expres­sive du sonore.

Du micro­phone à l’oreille

Le casque sur les oreilles, un ingé­nieur du son donne des indi­ca­tions à son per­chiste. Il se concentre sur son écoute, fait quelques signes. Le micro est dépla­cé, on le réoriente. A quelques cen­ti­mètres près, le ren­du change, le rap­port entre les sons évo­lue, la mise en acous­tique n’est plus la même. On cherche un nou­veau plan sonore, un empla­ce­ment opti­mal. On éva­lue la lisi­bi­li­té, on teste une voix, on atté­nue un bruit ambiant. Obser­vant la scène, le pro­fane –celui qui n’a jamais tenu un micro– se demande si ces gens du son fina­le­ment n’en rajoutent pas un peu. Pour­quoi tous ces réglages poin­tilleux ?

Pla­cés au même endroit, le tym­pan de l’oreille et la mem­brane d’un micro­phone reçoivent à peu près les mêmes vibra­tions. L’un et l’autre recueillent de fait les ondes sonores dis­po­nibles en ce point de l’espace. On devrait plu­tôt par­ler de « mag­ma sonore » puisque que les ondes y arrivent ensemble, mélan­gées comme une addi­tion. Usons d’une méta­phore arith­mé­tique. Si je dis par exemple « résul­tat : 88 ! ». Com­ment savoir si 88 est la somme de « 80 + 8 » ou de « 22 + 46 + 20 » ou encore de « 13 + 27 + 35 + 23 » ? Com­ment retrou­ver le détail de l’addition si je ne dis­pose que du résul­tat ? Com­ment retrou­ver et dépar­ta­ger les sources sonores si je ne per­çois que leur somme ? Et c’est jus­te­ment ce mélange qui, sans pré­cau­tions, est dif­fu­sé par le haut-par­leur de res­ti­tu­tion, dans les séances fami­liales autour du camé­scope. Inau­dible, on dirait ! Le cer­veau ne peut tout sim­ple­ment plus choi­sir et trier par­mi les vibra­tions émises. Et pour­quoi ? Parce que l’espace sonore envi­ron­nant a été com­pac­té et sim­pli­fié à une seule infor­ma­tion (au point de cap­ture), et res­ti­tué un peu plus tard de la même façon (au point de dif­fu­sion).

Allons dans un café à peine bruyant, fer­mons les yeux et bou­chons-nous une oreille, celle tour­née vers la scène sonore : nous voi­là trans­for­més en micro­phone omni­di­rec­tion­nel ! On ne com­prend plus rien, la réver­bé­ra­tion est exces­sive, l’ambiance déme­su­rée, les per­cu­tantes exa­gé­rées, etc… Ouvrons les deux yeux et les deux oreilles en nous retour­nant vers la scène : les sons ambiants se calment, reprennent leur place exacte en dis­tance et en azi­mut. Refai­sons l’expérience plu­sieurs fois de suite –écoute monau­rale puis binau­rale– l’effet est sai­sis­sant ! L’intelligibilité est retrou­vée, on peut même suivre une conver­sa­tion rap­pro­chée en se ser­vant éven­tuel­le­ment de la lec­ture faciale et labiale. Le cer­veau, nan­ti de deux infor­ma­tions dif­fé­rentes (oreille gauche et oreille droite) peut net­toyer auto­ma­ti­que­ment l’espace acous­tique (BMLD ou binau­ral mas­king level dif­fe­rence), domp­ter les bruits ambiants en quelque sorte, et écou­ter volon­tai­re­ment la source inté­res­sante (ILD ou intel­li­gence level dif­fé­rence), en lui don­nant pré­sence et pré­ci­sion1.

On voit ici à quel point l’écoute humaine est dif­fé­rente de la cap­ta­tion micro­pho­nique. Deux fois dif­fé­rente : pas de net­toyage BMLD (les loin­tains rap­pliquent, la réver­bé­ra­tion aug­mente, les bruits sont très mas­quants) ; pas de foca­li­sa­tion ILD (la source inté­res­sante n’augmente ni en pré­ci­sion, ni en pré­sence). Pour pal­lier ces manques, il faut cher­cher des lieux plus silen­cieux –moins bruyants en tout cas– et s’approcher très net­te­ment des sources, comme le font les per­chistes. Entrer en proxi­mi­té, écou­ter ce que cela donne, ajus­ter la dis­tance et l’axe jusqu’à obte­nir une image plau­sible, et peut-être même fort belle de la source.

Chaque empla­ce­ment micro­pho­nique est en effet le centre d’un mixage phy­sique entre les ondes directes issues des dif­fé­rentes sources en acti­vi­té et les ondes indi­rectes rabat­tues par les parois de la salle : un tel mixage res­ti­tue tou­jours un enche­vê­tre­ment de sons, une sorte de ver­sion à la fois objec­tive et cafouilleuse de la pres­sion acous­tique régnant en ce point. Il s’agit donc de choi­sir la bonne ver­sion en ten­dant la perche comme on a ten­du l’oreille.

C’est le seul moyen connu pour recons­truire une pers­pec­tive sonore, à savoir : affir­mer un son prin­ci­pal, atté­nuer les sons annexes trop insis­tants, récu­pé­rer les détails signi­fi­ca­tifs, jouer des effets de masque entre les sons, régler le net et le flou, éta­ger la profondeur…etc. C’est pour­quoi les micro­phones implan­tés dans les camé­scopes grand public ne sont pas d’un grand secours. Le réa­lisme du micro­phone n’est pour ain­si dire qu’un réa­lisme tech­no­lo­gique, très en des­sous du réa­lisme épu­ré de l’écoute binau­rale. Qui donc pour­rait se pas­ser du ou de la per­chiste ?

Plus com­pli­qué : la chaîne audi­tive…

Un simple bruit de pas peut déclen­cher une réac­tion émo­tive (jubi­la­tion, peur sou­daine), voire une action déter­mi­nante (approche agres­sive, dis­si­mu­la­tion pro­pice, élan sal­va­teur), ou même une totale indif­fé­rence. Il en va de même pour tous les sons, petits et grands, forts ou faibles. Un silence gla­cé, un cri, des sou­pirs, une ambiance char­gée et ten­due, une voix savou­reuse ou mor­dante, un déclic sou­dain : dans la vie, l’é­coute des bruits et des paroles engage par­fois la tota­li­té de l’être.

Les docu­men­ta­ristes ont très tôt com­pris l’intérêt (esthé­tique, scé­no­gra­phique, dra­ma­tur­gique) de faire jouer le in et le off, le manque-à-voir et le don­né-à-entendre, c’est-à-dire l’i­ma­gi­né et le per­çu. La mise en scène audi­tive, dans le hors champ de l’é­cran, tra­vaille les repré­sen­ta­tions et les attentes du spec­ta­teur –séquence après séquence– tan­dis qu’à l’in­té­rieur du cadre –plan après plan– elle ajoute aux mou­ve­ments de l’image son éner­gie inter­mit­tente, certes, mais tou­jours expres­sive.

En emme­nant l’écoute au delà d’un sup­po­sé réa­lisme, en se déliant par exemple du natu­ra­lisme prê­té au son syn­chrone ou à la cap­ta­tion mono­pho­nique du son direct, la bande-son est deve­nue plus que jamais le lieu d’une écri­ture, d’une com­po­si­tion. Qu’ils soient dif­fu­sés en mono ou en mul­ti­ca­naux, les sons (voix, bruits et ambiances) prennent place tout autour, dans le géo­mé­tral de la scène : les sources mul­tiples du sonore entourent vir­tuel­le­ment le spec­ta­teur pour toute la durée de la séquence2.

Tan­dis que l’écran per­siste droit devant, comme un grand rec­tangle lumi­neux accueillant la suite chan­geante des plans, le monde audi­tif est déjà ins­tal­lé tout autour : une mul­ti­tude de cercles concen­triques et obscurs[[C’est aus­si là l’intérêt du décou­page ciné­ma. Tan­tôt obs­cures (en off), tan­tôt mises en lumière (en in) les sources sonores sont entre­vues suc­ces­si­ve­ment : sur le mode ima­gi­naire, sur le mode mémo­riel, sur le mode visuel et audi­tif.]], pos­si­ble­ment peu­plés de sons proches ou loin­tains, syn­chrones ou asyn­chrones par ori­gine, mais syn­chrones par des­ti­na­tion.

Il est peut-être néces­saire, avant d’aborder les don­nées ins­tru­men­tales et le pro­jet scé­no­gra­phique, –comme le fait concrè­te­ment Daniel Deshays dans sa com­mu­ni­ca­tion– de faire un détour par les dif­fé­rentes étapes du trai­te­ment audi­tif, pour prendre la mesure jus­te­ment des impli­ca­tions diverses résul­tant des dif­fé­rences entre cap­ta­tion micro­pho­nique et écoute binau­rale.

Long­temps limi­tée à la phy­sio­lo­gie, l’é­tude des phé­no­mènes sonores s’est bien élar­gie. Elle s’étend désor­mais à d’autres domaines –per­cep­tifs, esthé­tiques, cog­ni­tifs– jusqu’à expli­quer le tri entre le res­sen­ti sub­jec­tif, si dif­fé­rent d’un spec­ta­teur à l’autre, et les per­cep­tions rela­ti­ve­ment inva­riantes, sur les­quelles le cinéaste s’appuie intui­ti­ve­ment. Mais là, çà se com­plique sérieu­se­ment.

a/ les sources

Au plan acous­tique, les sources sont des émet­teurs, omni­di­rec­tion­nels dans le grave, plu­tôt direc­tifs dans l’ai­gu. Inter­mit­tente, conti­nue ou iso­lée, l’é­mis­sion reflète néces­sai­re­ment une éner­gie en mou­ve­ment : natu­relle (tem­pête, bords de mer…), sociale (cir­cu­la­tion, tra­vaux…) ou domes­tique (bouilloire, son­ne­rie…). La plus inté­res­sante est l’ac­ti­vi­té cor­po­relle. D’or­di­naire souple et silen­cieuse, l’éner­gie mus­cu­laire se fait entendre à tra­vers un son plus ou moins intense (entre­choc, mani­pu­la­tion d’objets, dépla­ce­ment…), lequel déclenche en retour l’é­coute cau­sale. On voit tel­le­ment bien de quoi il s’agit que le maté­riau sonore –grain, masse, contour, hau­teur, timbre– est qua­si oublié dans le « pour­quoi » de son émis­sion : l’in­ten­tion d’un geste est com­prise à tra­vers le déploie­ment tem­po­rel du son.

Epais ou léger, grave ou aigu, lisse ou gre­nu, le son marque pour­tant l’au­di­teur par son emprise sen­so­rielle pour mieux figu­rer la chaîne cau­sale d’où il pro­cède. Subi­to forte, poco a poco decres­cen­do, stac­ca­to, subi­to pia­no, sfor­zan­do, etc… De l’énergie s’entend dans le pro­fil tem­po­rel, dans l’évolution du timbre et des tes­si­tures. Forme faible –fur­tive, fon­due dans l’ambiance– ou robuste –résis­tante au bruit, char­pen­tée– le son appelle à la recons­truc­tion des don­nées, à la remise en jeu d’un déjà connu caté­go­ri­sé (le cris­se­ment des pneus, par exemple), dans une situa­tion pré­cise (ce coup de frein, dans ce virage).

Les ins­tants sonores, suc­ces­si­ve­ment arti­cu­lés (déra­page, choc de tôles, cris), s’assemblent alors en en figure tem­po­relle plus ou moins longue, figure qui se pré­cise ou se perd, s’af­firme ou s’in­ter­rompt, non sans avoir ima­gé ses hypo­thèses, en amont (causes), ou en aval (consé­quences).

Cette figure tem­po­relle plus ou moins défi­nie (l’accident, les bles­sés) appelle sou­vent une confir­ma­tion visuelle, une vali­da­tion détaillée de l’é­vé­ne­ment (les pas­sa­gers, le type de voi­ture, la cause de l’accident). On pour­rait ain­si dif­fé­ren­cier les sons « fami­liers » déjà réglés par l’ordre social ou les habi­tudes fami­liales (la cir­cu­la­tion auto­mo­bile, l’aspirateur) d’avec les sons « en infrac­tion » (insultes, klaxons, bris de vais­selle…), infrac­tions qui per­turbent ou endom­magent cet ordre.

b/ la pro­pa­ga­tion

En tant que source active, chaque objet sonore dis­pose d’une por­tée –d’un péri­mètre d’atteinte– qui dépend de la puis­sance et de la direc­ti­vi­té de l’é­mis­sion, mais aus­si des obs­tacles ren­con­trés, et même de la direc­tion du vent. Jusqu’où porte la voix ? Si le niveau dimi­nue géné­ra­le­ment avec le car­ré de la dis­tance par­cou­rue (pers­pec­tive géo­mé­trique en 1/d2), la por­tée reste rela­ti­ve­ment plus impor­tante en champ clos –dit semi-réver­bé­rant– à cause des replie­ments et des rebonds sur les parois des salles. Au lieu de se perdre dans la dis­tance, l’énergie se replie et se dif­fuse invi­sible, plu­sieurs fois rabat­tue par les murs, jusqu’à contour­ner les obs­tacles, s’il s’en trouve. Tan­dis qu’en champ libre –en plein air– la décrois­sance est très rapide, en rai­son des volumes ren­con­trés et/ou de l’absorption par le sol. Par ailleurs, le son s’a­mol­lit avec la dis­tance, perd de son tran­chant, de sa rugo­si­té (une sorte de pers­pec­tive aérienne, naguère décrite par Léo­nard de Vin­ci comme une déco­lo­ra­tion des loin­tains, une indis­tinc­tion crois­sante des détails).

Telle se pré­sente pro­vi­soi­re­ment la pers­pec­tive audi­tive, avec un double aspect sem­blable à la pers­pec­tive visuelle : à la fois pers­pec­tive hié­rar­chique, liée à la puis­sance des sources (et non pas à l’encombrement spa­tial) et pers­pec­tive de pro­fon­deur, réglée par les éloi­gne­ments. Un objet sonore tout proche, de taille impo­sante, peut res­ter qua­si-silen­cieux, alors qu’un objet loin­tain, peu encom­brant, peut se révé­ler très sonore. Silence, fond d’air, sons loin­tains et peu défi­nis, petits bruits légers, ambiance sou­te­nue, brou­ha­has, vacarme, etc… consti­tuent autant de repré­sen­ta­tions sub­jec­tives de la puis­sance, mais ce sont là des indi­ca­tions très rela­tives, for­te­ment modi­fiables par la proxi­mi­té ou l’éloignement. Et pour­tant ! Un camion qui s’éloigne ne devient pas une camion­nette ni même un « camion­ni­cu­let » ! C’est que la mise en espace –et pour cela, deux oreilles et un cer­veau ne sont pas de trop– réta­blit la masse ori­gi­nelle d’un son, lui donne son poids véri­table, en même temps que sa pro­ve­nance exacte, mal­gré les fluc­tua­tions de l’image reçue.

Nous sommes tel­le­ment habi­tués à sta­bi­li­ser le monde audi­tif, à l’objectiver, en quelque sorte, que nous oublions volon­tiers ceci : chaque empla­ce­ment d’écoute est un point de mixage accueillant les dif­fé­rentes vibra­tions aériennes pour les mélan­ger par ordre d’in­ten­si­té rela­tive. Même si par­fois on est obli­gé de s’écarter pour échap­per à un bruit gênant (chute d’eau, moteur, mar­teau-piqueur), pour atté­nuer le bruit trop intense qui fatigue l’oreille et ruine l’écoute intel­li­gente. Ins­tinc­ti­ve­ment, sans même la connaître, nous fai­sons jouer la loi en 1/d2 qui, en quelques mètres seule­ment fait chu­ter le son gênant d’une dizaine de déci­bels.

En réa­li­té, le monde audi­tif n’est rame­né au silence que par la déper­di­tion aérienne des vibra­tions, soit par la décrois­sance due à l’éloignement. Dis­si­pa­tion que l’on observe déjà avec les ampoules élec­triques, qui, dans l’obscurité de la nuit, n’éclairent plus guère au delà de quelques dizaines de mètres3. Cette consta­ta­tion est ampli­fiée par l’effet de masque propre à l’audition, effet qui met les sons en concur­rence au plan de l’intelligibilité, mal­gré le démas­quage binau­ral (BMLD) pré­cé­dem­ment évo­qué : cer­tains sons s’enfouissent ou émergent subi­te­ment, sans lien évident avec la dis­tance, mais en rela­tion directe avec l’environnement immé­diat, plus ou moins mas­quant4. Avec le micro­phone, faute de démas­quage binau­ral (BMLD), la concur­rence entre les sons va aug­men­ter ter­ri­ble­ment, et c’est ce qui fait que le point de cap­ta­tion –spa­tial, tem­po­rel– est encore plus déci­sif.

point d’écoute – on devrait dire point d’ouïe, par ana­lo­gie avec point de vue

c/ l’oreille

Les dif­fé­rences de cap­ta­tion (entre oreille gauche et oreille droite) sont impor­tantes. La tête fait de l’ombre aux fré­quences aiguës (dif­fé­rence d’in­ten­si­té, selon l’angle d’arrivée) tan­dis qu’elle intro­duit pour les graves un retard (dif­fé­rence de temps, selon l’a­zi­mut). Seule une source pla­cée droit devant annule les dif­fé­rences gauche/droite. Par ailleurs, les nom­breux replis de la conque externe effec­tuent un ”fil­trage en peigne” (de 3 à 15 kHz) qui varie avec la pro­ve­nance des sources5. Les petits bruits secs, riches en aigus, sont ain­si très faci­le­ment loca­li­sés. En outre, le conduit audi­tif accen­tue –tel un tuyau réso­nant– les fré­quences proches de 2,5 kHz6. L’en­semble de ces dis­po­si­tions est connu sous le nom des « fonc­tions de trans­fert rela­tives à la tête » (HRTF, head rela­ted trans­fert func­tions).

C’est donc grâce à ces dif­fé­rences de cap­ture que le cer­veau peut recons­ti­tuer l’espace sonore à l’entour. Mais cet espace, irré­gu­liè­re­ment et inter­mit­tem­ment habi­té, est beau­coup moins pré­cis et moins défi­ni que l’espace visuel conti­nû­ment dis­po­nible, aus­si long­temps qu’il y a de la lumière ! Que dire des vides audi­tifs, des longs silences ou des sons brefs, sépa­rés par de longs inter­valles muets ! Il n’empêche : le son dyna­mique s’exprime sur dix octaves, de ppp à fff (contraste moyen : 1 à 20000), tan­dis que l’objet visuel éclai­ré s’exprime seule­ment par son albe­do colo­ré (contraste maxi­mal de 1 à 20). Consé­quences : le cadreur règle son dia­phragme et n’y touche plus durant la prise ; l’ingénieur du son, au contraire, sur­veille sans cesse ses niveaux et joue sou­vent du poten­tio­mètre pour évi­ter toute sous ou sur­mo­du­la­tion, aidé du per­chiste qui approche ou éloigne son micro.

Au demeu­rant, l’appareil audi­tif pro­cède de la même manière : la chaîne des osse­lets inter­vient pour rele­ver un niveau trop faible (tendre l’oreille) ou pour pro­té­ger des éclats sonores les fra­giles cel­lules de l’oreille interne. Le sys­tème agit de la sorte à la manière d’un com­pres­seur limi­teur, d’un sas de sécu­ri­té fil­trant les crêtes des sti­mu­li. Les vibra­tions peuvent être alors reçues par le lima­çon cochléaire pour être éta­lées sur la mem­brane basi­laire et tra­duites aus­si­tôt en influx ner­veux.

Les vibra­tions entrantes se pro­pagent en tra­vel­ling d’onde sur cette mem­brane, de 32 mm de long, aux pro­prié­tés méca­niques éton­nantes : souple et lourde à l’ex­tré­mi­té libre, elle est au contraire légère et raide à l’at­tache. Selon la théo­rie cou­ram­ment admise, les dif­fé­rentes fré­quences se trouvent ain­si éta­lées tout du long, en une suite de réso­nances loca­li­sées. Chaque fré­quence vient se posi­tion­ner à une place atti­trée, réa­li­sant une tono­to­pie (tonos, ton ; topos, lieu) : ce n’est donc pas l’espace qui est éta­lé sur la mem­brane, mais bien la hau­teur des sons. 3500 cel­lules spé­cia­li­sées (munies de cils vibra­tiles), y effec­tuent alors, point après point, la tra­duc­tion élec­trique de l’intensité.

A remar­quer : cette trans­duc­tion n’est pas linéaire, mais loga­rith­mique.

Elle com­prime les fré­quences en octaves et les inten­si­tés en sonies. De plus, la cap­ta­tion favo­rise le haut médium et bas aigu (de 800Hz à 4000Hz) tout en défa­vo­ri­sant les graves (sur­tout aux faibles niveaux, comme le montrent les courbes dites iso­so­niques). Ain­si un camion qui s’é­loigne sur la route s’af­fai­blit en inten­si­té tout en chan­geant de timbre : il perd net­te­ment en basses et en aiguës extrêmes (le timbre se rétré­cit par les extré­mi­tés du spectre). A bonne dis­tance, ne sub­sistent que les fré­quences médiales. L’éloignement s’entend aus­si par la déco­lo­ra­tion de l’image de réfé­rence.

En outre, la mem­brane de l’oreille interne, en se défor­mant loca­le­ment sous l’in­fluence d’un son intense, a ten­dance à igno­rer d’autres vibra­tions moins intenses, à la fois cachées et absor­bées par la défor­ma­tion prin­ci­pale, faute de sélec­ti­vi­té suf­fi­sante. L’ef­fet de masque efface de la sorte tous les sons faibles ou moyens, pla­cés immé­dia­te­ment au des­sus du son fort. D’où ce para­doxe : plus un son est fort et moins il y a de choses à entendre ! L’au­di­bi­li­té de chaque oreille ne s’ap­puie donc que sur l’en­ve­loppe dyna­mique ins­tan­ta­née résul­tant de l’onde pro­pa­gée sur la mem­brane : on n’en­tend jamais le spectre objec­tif d’une source, avec toutes ses har­mo­niques (le timbre au grand com­plet), mais seule­ment l’en­semble des har­mo­niques émer­gentes, non mas­quées7 (soit le timbre appa­rent, celui qui nous importe).

Au total, les soixante dix mille fibres du nerf audi­tif (au lieu des six mil­lions du nerf optique) ache­minent les signaux ner­veux vers le cor­tex. Si le sonore repré­sente quelque chose, même approxi­ma­ti­ve­ment, c’est for­cé­ment en pre­nant un peu de temps –sur un mode séquen­tiel– et non pas ins­tan­ta­né­ment –sur un mode mas­si­ve­ment paral­lèle– comme dans la vision, mieux équi­pée de ce point de vue.

d/ la per­cep­tion

Dif­fé­rents « modules » reprennent le trai­te­ment audi­tif, au plan neu­ro­nal. Trois grandes fonc­tions semblent requises avant toute iden­ti­fi­ca­tion des sources sonores.

1/ L’ex­ter­na­li­sa­tion : les sons sont resi­tués à leur place exacte, dans le champ objet envi­ron­nant (en dis­tance et azi­mut). Sans cette exter­na­li­sa­tion, le son res­te­rait col­lé aux tym­pans, comme une sen­sa­tion tac­tile ! Les dif­fé­rences inter­au­rales d’intensité et de temps sont en réa­li­té trans­for­mées en espace concret de loca­li­sa­tion et d’action. Et comme l’es­pace audi­tif reste stable, quels que soient les mou­ve­ments de la tête, tout indique que les mou­ve­ments cor­po­rels sont pris en compte pour com­pen­ser les fluc­tua­tions (∆i, ∆t) entraî­nées par la réorien­ta­tion de la tête et du cou.

2/ La fusion et la fis­sion : les sons ini­tia­le­ment mélan­gés sur les mem­branes cochléaires se dégroupent et se séparent pour for­mer des enti­tés dif­fé­ren­ciées, des sources loca­li­sées, inter­mit­tentes ou conti­nues. En cha­cune d’elles, les ins­tants suc­ces­sifs se regroupent néan­moins pour for­mer un flux (un conti­nuum tem­po­rel). La fis­sion sépare les sons (spa­tia­le­ment), tan­dis que la fusion les assemble (tem­po­rel­le­ment) en pro­fil uni­fié. Et cela d’au­tant plus clai­re­ment que l’at­ten­tion y est pré­pa­rée. On pense aux théo­ries de la forme (Ges­talt-theo­rie), appli­quées cette fois à l’au­di­tion.

3/ L’extraction des indices audi­tifs : pour iden­ti­fier et recon­naître un son, il faut pou­voir extraire cer­tains traits per­ti­nents signi­fi­ca­tifs. Les uns relèvent de l’en­ve­loppe tem­po­relle (pro­fils d’at­taque ou d’ex­tinc­tion, ampli­tude, allure, durée), les autres du conte­nu spec­tral (den­si­té, hau­teur et posi­tion des for­mants, fluc­tua­tions du spectre). Cepen­dant le monde réel n’est pas direc­te­ment audible en tant que tel. Il se reflète dans la conscience en qua­lia, sorte de sen­sa­tions élé­men­taires dont le regrou­pe­ment com­bi­né abou­tit à la figure audi­tive, à la fois image (par ses qua­lia com­bi­nés) et objet (de par sa repro­jec­tion exacte dans l’espace-temps). Ain­si la masse, le pro­fil, la hau­teur, le grain, le timbre –cri­tères schaef­fe­riens8 – semblent appar­te­nir à l’objet spa­tia­li­sé, alors qu’ils ne sont que les trans­crip­tions phé­no­mé­nales des vibra­tions par­ve­nues aux tym­pans !

Autre­ment dit, le cer­veau construit en interne des sen­sa­tions qui se trouvent aper­çues en externe, à l’emplacement exact de la source émet­trice. Ces trans­crip­tions semblent néan­moins plu­tôt robustes et assez bien cor­ré­lées aux pro­prié­tés méca­no-acous­tiques de l’objet sonore : per­cus­sions, frot­te­ments, oscil­la­tions, réso­nances.

Selon les neu­ros­ciences, il appa­raît aujourd’­hui que l’ex­trac­tion des indices pro­cède de deux sortes de fonc­tions com­plé­men­taires : l’une aus­culte le pro­fil tem­po­rel, l’autre le timbre. Cette dua­li­té « contour-matière » n’est pas sans rap­pe­ler la vieille dis­tinc­tion « mor­phê-hulê » chère aux phi­lo­sophes de l’antiquité. Plus clai­re­ment, le cor­tex moteur exa­mine le pro­fil dyna­mique, la masse tem­po­relle évo­lu­tive et l’énergie mise en jeu, tan­dis que le cor­tex audi­tif s’intéresse au timbre, au grain, à la cou­leur et à l’emplacement des sons.

Il y a une ori­gine à ce double par­cours : tous les sons que nous pro­dui­sons –et que nous enten­dons, ipso fac­to– sont cor­ré­lés à notre acti­vi­té motrice : la marche, l’effort mus­cu­laire, le manie­ment d’outils, et bien enten­du, la voix, le cri, le sou­pir.

Le geste ordi­naire et fami­lier et le bruis­se­ment qui en résulte se connaissent, sans mobi­li­ser la moindre dépense consciente. Ils peuvent s’ajuster l’un à l’autre, dans une sorte de pré­cons­cient, sans qu’on y prête trop atten­tion. En d’autres termes, le cor­tex pré-moteur pré­pare –silen­cieu­se­ment– les actes vou­lus tan­dis que le cor­tex audi­tif écoute –dis­crè­te­ment– le résul­tat et ajuste –c’est une rou­tine– l’intention motrice. L’oreille et la voix se connaissent aus­si très bien, mais inté­rieu­re­ment, sans avoir besoin de pas­ser non plus par la conscience. Le pro­fil d’effort (res­pi­ra­tion, arti­cu­la­tions) et le pro­fil d’intensité (accents, nuances) se régulent mutuel­le­ment, jusqu’à obte­nir –spon­ta­né­ment, dira-t-on– l’intonation et le phra­sé recher­chés, la por­tée et la hau­teur dési­rées.

Si le ton, les accents, le rythme d’un pro­pos sont aus­si par­fai­te­ment sai­sis par un audi­teur, c’est sur­tout parce qu’ils cor­res­pondent à des gestes vocaux déjà vécus et mémo­ri­sés, c’est-à-dire à des pro­fils d’expression déjà éprou­vés au moment de par­ler.

Une récente théo­rie (TMPP ou théo­rie motrice de la parole per­çue) énonce que la per­cep­tion de la parole ne doit pas être recher­chée seule­ment dans la “sur­face acous­tique” des mots, mais aus­si dans la struc­ture arti­cu­la­toire sous-jacente. La chaîne par­lée tient en effet en une série de pas­sages : du geste inten­tion­nel à la com­mande motrice, de la com­mande motrice aux dépla­ce­ments d’articulateurs (langue, mâchoires, lèvres), avec pour résul­tat final une parole. Il s’agit alors, pour retrou­ver les gestes inten­tion­nels à par­tir du son pro­fé­ré, de faire le che­min inverse, c’est-à-dire de faire dépendre la recon­nais­sance vocale tant du cor­tex pré­mo­teur, memen­to-agen­da de gestes vocaux déjà éprou­vés, d’articulations inten­tion­nelles apprises, que du cor­tex audi­tif, réper­toire de syl­labes et de voca­li­sa­tions fami­lières9.

Il en va de même de tous les sons issus de l’activité cor­po­relle, et plus pré­ci­sé­ment de ceux issus des pra­tiques conso­li­dées : dou­ble­ment mémo­ri­sés, à la fois sen­so­riels et moteurs, ces sons ne souffrent pas la moindre approxi­ma­tion de timbre ou de jeu, car toute for­mule acous­tique inexacte ou arti­fi­cielle serait confron­tée à la pré­ci­sion avé­rée de la mémoire cor­po­relle du mou­ve­ment, à laquelle se rat­tache la jus­tesse et la véri­té de nos actes, qu’ils soient volon­taires ou invo­lon­taires. Cela me fait pen­ser à ce que dit Daniel Deshays à pro­pos d’Alain Cava­lier : le cinéaste est allé cher­cher des gens de métier (il s’agit de bou­chers et de pho­to­graphes, recru­tés à l’ANPE) pour les faire jouer dans son film Libe­ra Me, sans doute pour être le plus juste pos­sible, tant au niveau de l’image que des sons.

On pour­rait sug­gé­rer alors une autre façon de clas­ser les sons : il y aurait ceux –très pré­cis– qui entrent dans l’expérience sen­so­ri-motrice (tac­tile, manuelle, mus­cu­laire); ceux –moins évi­dents– qui se rap­portent à des sources vues et enten­dues mais sans écho par­ti­cu­lier dans une pra­tique ; d’autres encore, qui ne ren­voient qu’à une expé­rience audi­tive (sons noc­turnes ou inac­ces­sibles à la vue) ; ceux , enfin –inouïs ou incon­nus– qui convoquent un ima­gi­naire fon­dé sur l’association ou la res­sem­blance.

Une fois iden­ti­fiés, les indices audi­tifs –acous­tiques et/ou moteurs– accrochent néces­sai­re­ment une repré­sen­ta­tion déjà caté­go­ri­sée dans le « pic­tion­naire » des sons rat­ta­chés à une image. Le déjà connu rap­plique sur le per­çu, en une sorte de rac­cour­ci rapide à usage d’ex­pli­ca­tion immé­diate. Il faut pour­tant aller plus loin que la simple iden­ti­fi­ca­tion géné­rique, le sché­ma-type. L’image géné­rique (un avion, un chien, une manif) reste insuf­fi­sante pour éta­blir la chaîne cau­sale, cer­ner l’ob­jet dans sa sin­gu­la­ri­té10. Il y a lieu de pré­ci­ser, com­plé­ter, élu­ci­der. C’est alors que la vision relaie l’audition, par ajus­te­ments suc­ces­sifs du regard ou même dès le pre­mier coup d’œil, si la conver­gence des infor­ma­tions est assez forte.

e/ l’at­ten­tion

L’ouïe a cette facul­té ori­gi­naire de pro­té­ger l’être vivant, de guet­ter les modi­fi­ca­tions infimes du don­né sonore –silence ou bruit sou­dain, pas dans les feuilles, pas sus­pen­du puis relan­cé– ne serait-ce que pour « rafraî­chir » la mémoire spa­tiale immé­diate (la pré­sence à soi du monde) ou entre­te­nir la ques­tion vitale –Quoi ? Où ?– ce qui évite par exemple de se faire écra­ser en tra­ver­sant la rue. L’écoute « pro­tec­tive » déclenche une réac­tion d’orientation en direc­tion de l’intrus audi­tif, afin de voir et d’entendre plus clai­re­ment la source/objet qui sur­git.

Au demeu­rant, cette acti­vi­té invo­lon­taire, auto­ma­tique presque, n’empêche nul­le­ment d’autres facul­tés audi­tives d’opérer au niveau le plus cen­tral de l’activité consciente et pré­cons­ciente. Le com­por­te­ment humain per­drait en effet toute cohé­rence s’il devait se rat­ta­cher, tel une girouette ou un moi­neau agi­té, à une impré­vi­sible suc­ces­sion de sol­li­ci­ta­tions externes, dans un enchaî­ne­ment sans fin de réorien­ta­tions réflexes obli­gées.

Aus­si bien l’at­ten­tion audi­tive pré­fère choi­sir, concen­trer sa puis­sance éclai­rante sur tel ou tel sec­teur de l’es­pace, pour mieux iso­ler l’ob­jet écou­té. Un ora­teur, de la musique au loin, un petit bruit inso­lite, l’approche d’un pas connu. L’écoute volon­taire sélec­tionne sa cible, la rehaus­sant en net­te­té, avec une pré­sence accrue. Cor­ré­la­ti­ve­ment, les autres sec­teurs sont comme relé­gués en sons d’am­biance, les­quels, lis­sés de leurs tran­si­toires, nive­lés en dyna­mique, paraissent moins pré­sents.

La conscience atten­tion­nelle, en s’as­si­gnant un son à écou­ter, se hisse de la sorte au-des­sus d’une per­cep­tion direc­tion­nelle : le point d’é­coute est men­ta­le­ment cen­tré, alors que l’am­biance est pro­vi­soi­re­ment reje­tée hors de toute visée loca­li­sante.

On ne peut du reste écou­ter qu’une chose à la fois. L’écoute intel­li­gente (ILD), comme le regard, ne peut s’appliquer qu’à un sec­teur limi­té de l’espace –une qua­ran­taine de degrés, au maxi­mum– car il est impos­sible de cou­vrir d’attention éclai­rante les 360° qui nous entourent. D’où cette foca­li­sa­tion sans cesse chan­geante, cette balance tou­jours refaite entre la zone d’écoute, sur-enten­due, et la zone ambiante, sous-enten­due.

Le monde audi­tif est donc à « pré­sence variable » et il n’y a donc jamais de réa­lisme sonore dans l’absolu. Le point d’é­coute change, zappe d’un objet à un autre, s’immobilise en oblique, retourne vers le même11.

En fait, l’attention prend en compte les élé­ments dont elle a besoin pour gérer la com­pré­hen­sion des élé­ments en deve­nir : elle valo­rise un empla­ce­ment (aug­men­ta­tion de la vigi­lance sur un élé­ment pro­vi­soi­re­ment calme ou silen­cieux), elle hausse la pré­sence d’une source pour en exa­mi­ner tous les détails (accrois­se­ment de la net­te­té), elle atté­nue un son audi­ti­ve­ment gênant (dimi­nu­tion par­tielle de l’ef­fet de masque), elle oublie dura­ble­ment un bruit jugé peu per­ti­nent, elle sur­veille obli­que­ment un élé­ment momen­ta­né­ment secon­da­ri­sé. En fili­grane, on aper­çoit ici ce que seront les efforts du per­chiste pour imi­ter les mou­ve­ments de l’attention (en se fai­sant à la fois “chas­seur de papillons et cal­li­graphe”, selon l’expression de Chris­tian Canon­ville).

C’est ain­si qu’un évè­ne­ment audi­tif dis­cret, de faible inten­si­té, peut prendre une valeur de signal, alors qu’il reste peu saillant (per­cep­ti­ve­ment). Un son quel­conque, riche en per­cu­tantes inuti­le­ment répé­tées, peut au contraire rui­ner l’écoute (effet de masque) jusqu’à l’agacement. Un évè­ne­ment sonore moins agres­sif peut être contré ou igno­ré, alors qu’il per­siste en termes d’intensité ou d’en­com­bre­ment spec­tral. Un son oblique, annon­cia­teur d’évènements impor­tants (son pré­cur­seur), peut atti­rer l’at­ten­tion et relaxer l’élé­ment prin­ci­pal qu’on vient pour­tant de cen­trer. Un pro­pos impor­tant, per­tur­bé par une ambiance bruyante ou un bruit pas­sa­ger, peut inver­se­ment résis­ter aux inter­fé­rences (écoute for­cée).

Fina­le­ment cer­tains élé­ments sonores sont négli­gés (sur­di­té atten­tion­nelle), tan­dis que d’autres béné­fi­cient d’une audi­bi­li­té accrue (acui­té de foca­li­sa­tion). Ce sera au mixeur, avec le mou­ve­ment des poten­tio­mètres12, de simu­ler ces dif­fé­rentes pré­sences, de les mettre en pers­pec­tive et en mou­ve­ment, pour peu qu’elles aient été pré­pa­rées dès la prise de son.

Des opé­ra­teurs men­taux (supra-audi­tifs) entrent alors en jeu avec leur com­pé­tence spé­ci­fique : linguistique/pragmatique pour la parole, brui­tiste pour l’en­vi­ron­ne­ment, musi­cale pour le concert. Il est de la sorte pos­sible de recons­ti­tuer les élé­ments man­quants d’une phrase per­tur… par le bruit amb… ou par une arti­cu­lat… insuff.…te : c’est la res­tau­ra­tion pho­né­mique. Ou d’é­cou­ter plu­tôt l’in­to­na­tion vocale, le phra­sé et de détec­ter ain­si les inten­tions cachées des locu­teurs. Ou de recon­naître un pas fami­lier. Ou encore de suivre une ligne ins­tru­men­tale dans un qua­tuor ins­tru­men­tal. Ce fai­sant, l’at­ten­tion mobi­lise un grand nombre de res­sources men­tales, puisqu’elle cherche aus­si à élu­ci­der le contexte, à sai­sir le jeu inces­sam­ment renou­ve­lé des causes et des consé­quences.

f/ l’in­ten­tion­na­li­té et la mémoire

Autre­fois (il y a long­temps : l’ORTF vivait encore), exis­tait une émis­sion où les pre­neurs de son ama­teurs pou­vaient faire entendre à la radio les enre­gis­tre­ments de pay­sages sonores, de musiques vivantes ou d’activités col­lec­tives qu’ils avaient attra­pés sur une bande magné­tique avec leur magné­to­phone (genre Uher sté­réo). On les nom­mait « chas­seurs de sons » : est-ce parce qu’un chas­seur à l’affût fait atten­tion à tout, au delà des consignes qu’il se donne, ou est-ce grâce au silence qu’il s’impose ? Est-ce parce que le gibier n’est pas facile à attra­per ? Je ne sau­rais dire.

Par contre, ce qui est cer­tain, c’est que l’é­coute pro­cède de l’intentionnel, puisqu’elle dépend des connais­sances posées sur la situa­tion ou prê­tées aux per­sonnes, ou même des consignes que l’on se donne. Les recherches actuelles en psy­cho­lo­gie accordent une extrême impor­tance au “set” ou pré­pa­ra­tion contex­tuelle, qui semble orien­ter les mou­ve­ments de l’at­ten­tion en fonc­tion de la situa­tion.

Chaque contexte fait entendre des sons ordi­naires et connus, des bruits ano­dins, une ambiance spé­ci­fique. Pour ne pas céder à la curio­si­té, l’auditeur ordi­naire, qui n’est pas un chas­seur de sons, recrute un cer­tain nombre d’images pré­vi­sibles qui vont fil­trer –inhi­ber– l’attraction réflexe. Ces contre-calques (pro­fils, timbres, for­mants) venus de la mémoire audi­tive s’insèrent dans la chaîne atten­tion­nelle, court-cir­cui­tant toute dis­trac­tion et étei­gnant les sur­prises inutiles.

Inver­se­ment, cer­tains sons –guet­tés ou espé­rés– s’ins­tallent sous forme de calques dans un hori­zon d’at­tente : ils n’en seront que plus faci­le­ment détec­tés dans le fond sonore, plus rapi­de­ment sélec­tion­nés. En s’adaptant au don­nées et au contexte, le “pre­set” men­tal nous aide à attra­per l’information per­ti­nente, à la détec­ter rapi­de­ment. On croi­ra même par­fois entendre cer­tains sons, tel­le­ment on a envie qu’ils arrivent.

Pour autant, ces calques et contre-calques n’empêchent nul­le­ment la sai­sie de sons impro­bables ou inat­ten­dus. L’ac­ti­vi­té réflexe peut alors reprendre momen­ta­né­ment son rôle de sur­veillance omni­di­rec­tion­nelle du ter­ri­toire, dans la mesure où l’élé­ment impré­vu ne sau­rait être igno­ré, ne serait-ce que pour prendre le temps de l’identifier.

Je pense qu’on entre­voit ici le pou­voir de la bande-son dans l’avancée d’un film : celui de créer de l’attente (on voit les choses arri­ver) en même temps que de pro­po­ser des sur­prises (elles sur­gissent du off ou du in). Celui d’entretenir la ten­sion interne du récit, de faire vivre au spec­ta­teur un par­cours inté­rieur par la mise en jeu per­ma­nente du pré­vu et de l’imprévu, acti­vi­té sans laquelle l’ennui et le som­meil de la pen­sée gagne­raient pro­ba­ble­ment du ter­rain.

La pré­pa­ra­tion affec­tive joue un rôle com­pa­rable : cer­tains sons jugés aga­çants ou dan­ge­reux sont refu­sés ou au contraire sur­di­men­sion­nés dans une pré­sence insis­tante, redou­table. D’autres, agréables ou dési­rables, se trouvent embel­lis et même accueillis au plus pro­fond de l’i­ma­gi­naire. En somme, l’auditeur ordi­naire tout comme le spec­ta­teur inter­agissent conti­nû­ment en fai­sant du mon­tage entre leurs per­cep­tions externes et leurs attentes internes. Un tel aller et retour dirige en temps réel la foca­li­sa­tion.

Il est évi­dem­ment impos­sible de se repré­sen­ter une situa­tion sonore d’un seul coup, ins­tan­ta­né­ment. Chaque ins­tant ren­voie en effet aux don­nées pré­cé­dentes, tout en se pro­fi­lant sur les don­nées sui­vantes, empor­tant le sens dans un déploie­ment sans fin. L’en­semble des indices extraits et recon­nus vient confir­mer ou infir­mer cer­tains aspects déjà anti­ci­pés, ouvrant sur de nou­velles phases pré­vi­sibles, de nou­velles pos­tu­la­tions. La com­pré­hen­sion pro­gresse ain­si par accu­mu­la­tion d’actes per­cep­tifs ponc­tuels, par amon­cel­le­ment. A tout moment, la scène sonore se construit en gar­dant la trace des pro­fils pas­sés et en avan­çant l’é­bauche des pro­fils à venir. Mais la trace s’évanouit, tan­dis que l’é­bauche reste incer­taine. C’est pour­quoi chaque séquence de film a besoin d’autre chose qu’une simple cap­ta­tion pas­sive (de type repor­tage), assez aléa­toire au niveau des élé­ments entrants et sor­tants. Daniel Deshays par­le­rait plu­tôt d’une recom­po­si­tion active, en plu­sieurs couches, d’événements tem­po­rels que l’on allonge ou que l’on res­serre, déli­bé­ré­ment.

Aus­si bien, la per­cep­tion de la bande-son appa­raît-elle comme un pro­ces­sus infé­ren­tiel13, une suc­ces­sion d’es­sais où se confrontent anti­ci­pa­tions, hypo­thèses et véri­fi­ca­tions, une suc­ces­sion de traces aus­si qui per­sistent en sur­im­pres­sion, sus­pen­dues comme des fili­granes. Il n’y a donc pas de repré­sen­ta­tions défi­ni­ti­ve­ment figées –uni­voques– dans le monde mou­vant des évè­ne­ments audi­tifs. De nom­breuses connexions se font et se défont dans la mémoire, sui­vant en cela les modu­la­tions du flux sonore, mais aus­si les modi­fi­ca­tions du champ visuel. C’est évi­dem­ment au mon­tage et à la mise en scène de les orga­ni­ser, de les sus­ci­ter.

Toute figure audi­tive –aus­si impré­cise soit-elle– se rac­croche pour­tant à un écou­le­ment pré­cis, tout en se rat­ta­chant à un réper­toire connu d’é­vè­ne­ments plus ou moins longs, ayant leur durée propre. Si la figure visuelle peut se conten­ter de l’im­mo­bi­li­té, d’un « temps zéro » (comme en pho­to !), la figure sonore ne sup­porte ni accé­lé­ré ni ralen­ti, ni hia­tus tem­po­rel, mais s’accommode par­fai­te­ment d’un « espace zéro », uni­di­men­sion­nel (comme en mono !).

Le son inter­mit­tent, par des ancrages spo­ra­diques ou durables dans l’i­mage, par des conta­mi­na­tions éner­gé­tiques ryth­mées, vient de la sorte com­plé­ter les infé­rences visuelles, ou les relan­cer dans d’autres ten­sions, d’autres pos­tu­la­tions. Je pense à la scène de la réver­bé­ra­tion, mesu­rée au pis­to­let, dans La Ville Louvre, de Nico­las Phi­li­bert : le rythme des déto­na­tions suc­ces­sives, salle après salle, finit par allon­ger le temps réver­bé­ré au delà du pos­sible, jusqu’à ren­con­trer l’idée d’un temps venu jusqu’à nous, le temps des civi­li­sa­tions dis­pa­rues mais encore figées dans la pierre des colosses pha­rao­niques.

L’instant pré­sent n’est fina­le­ment visé et inter­pré­té qu’à tra­vers ce qui n’est plus ou ce qui n’est pas encore. Le mon­tage a ce pou­voir d’inventer et d’écrire des impli­ca­tions, de faire ren­con­trer presque ins­tan­ta­né­ment des élé­ments sou­ter­rai­ne­ment liés, mais ordi­nai­re­ment sépa­rés dans le temps, épar­pillés dans l’espace. Cela étant, dans la vie comme au ciné­ma, la mémoire audi­tive reste poreuse : traces, ébauches et fili­granes –aus­si nom­breux soient-ils– n’ont pas tous le même poids, la même durée de vie. Les fili­granes sont plus ou moins insis­tants, plus ou moins redes­si­nés, les esquisses sont diver­se­ment crayon­nées.

g/ le désir et l’action

C’est par le désir (le désir de voir ou d’entendre, d’aimer ou de com­prendre, de s’identifier ou de se démar­quer) que le spec­ta­teur s’installe dans un docu­men­taire. Le sujet du film l’intéresse, ce n’est pas un pur diver­tis­se­ment, une éva­sion. Cha­cun est curieux aus­si de la façon dont le cinéaste va s’y prendre : de son degré d’invention, de la qua­li­té de son scé­na­rio, de sa direc­tion de spec­ta­teur. La pul­sion de voir se mêle à la pul­sion de savoir. On se recon­naît dans les per­son­nages ou les situa­tions, qui, sans être for­cé­ment les nôtres, nous concernent direc­te­ment ou indi­rec­te­ment. On se pro­jette avec ses affects, on par­tage les joies et les souf­frances des per­son­nages, on s’interroge sur les causes et les remèdes des situa­tions. Comme les émo­tions, les enjeux nous mobi­lisent.

La mémoire est donc convo­quée tout au long de la pro­jec­tion (52 minutes ou plus), pour un temps recom­po­sé, res­ser­ré, inten­si­fié, émou­vant. Tout com­mu­nique en effet dans cette mémoire à court terme : les per­son­nages, les situa­tions, les conflits. Cha­cun peut y faire son propre mon­tage, y entre­te­nir délec­ta­tions ou irri­ta­tions, se lais­ser prendre au flux des infor­ma­tions et des émo­tions. Cer­taines idées sur­gissent, d’autres s’é­va­nouissent ou se trans­forment. On aime ou on déteste. On forme des hypo­thèses, on filtre, on éva­lue. On retient, on feint d’oublier. Ou alors on se rap­pelle trop bien. C’est que l’é­mo­tion pola­rise le champ de conscience sur l’ob­jet qui nous pré­oc­cupe, sciem­ment ou incons­ciem­ment, comme pour mieux lui des­si­ner une tra­jec­toire, un reten­tis­se­ment.

Qu’à donc à faire le spec­ta­teur durant la pro­jec­tion ? Sinon construire un scé­na­rio inté­rieur, alter­nant les images visuelles et audi­tives de l’écran avec celles du monde men­tal, plus vola­tiles ou plus tenaces… Tra­cer des lignes conduc­trices ? Errer dans ses sou­ve­nirs ? Se rat­tra­per au film ? Les insis­tances de la mémoire, les brumes de l’oubli, les décro­chages de l’attention ne sont peut-être pas tous manœu­vrés depuis l’in­cons­cient freu­dien ou pilo­tés par le pré­cons­cient (cog­ni­tif, mémo­riel) mais ce qui est sur, c’est que le spec­ta­teur voyage dans le film avec un double scé­na­rio : celui des don­nées externes, des agen­ce­ments de mon­tage, des cor­res­pon­dances pro­po­sées entre les images visuelles et les images audi­tives ; celui des rémi­nis­cences internes, des asso­cia­tions spon­ta­nées, des rai­son­ne­ments inté­rieurs. Un double scé­na­rio qui unit ou oppose le sous texte du film au vaste écran de la mémoire et des oublis, des adhé­sions et des refus.

Il y a au fond comme un duel tou­jours pos­sible entre spec­ta­teur et cinéaste autour du sujet trai­té par le film. Si le film va à l’encontre des idées répan­dues (préa­la­ble­ment idéa­li­sées comme véri­tés com­munes), le cinéaste s’expose peut-être aux réac­tions de défense du moi, lequel n’aime pas trop recon­si­dé­rer ses pré­sup­po­sés, dans la mesure où ceux-ci sou­tiennent un ego géné­ra­le­ment fra­gile, assu­rant un étayage pro­vi­soire au très déli­cat et très cha­touilleux trio croyance/savoir/ignorance (trio qui est notre lot). La mise en scène peut essayer de dis­si­mu­ler son dis­cours en s’abritant der­rière celui des per­son­nages qui mène­raient alors leurs actions, plan après plan, comme s’il n’y avait ni tour­nage ni mon­tage, dans une sorte de trans­pa­rence nar­ra­tive. A moins qu’elle ne pro­pose au spec­ta­teur de s’ouvrir à l’intelligence du monde, en essayant de le cher­cher là où il est, sans le brus­quer, mais en le désta­bi­li­sant néan­moins, ce qui ne semble pas si facile.

Pour ter­mi­ner ce par­cours à tra­vers l’audition, je sou­hai­te­rais conclure par une asser­tion qui peut sur­prendre ; per­sonne n’entend jamais exac­te­ment les sons qu’il pro­duit ! De fait, l’ac­ti­vi­té motrice modi­fie gran­de­ment la per­cep­tion que l’on a des sons obte­nus en bou­geant, tra­vaillant, par­lant, mar­chant… etc. Un menui­sier n’entend pas exac­te­ment l’impact du mar­teau sur les clous, un bri­co­leur n’est pas gêné par le bruit de sa per­ceuse, un auto­mo­bi­liste ne sur­saute pas quand il klaxonne, un type pres­sé n’entend pas le bruit qu’il fait en cou­rant sur un plan­cher sonore, etc.

Les neu­ro­bio­lo­gistes ont une expli­ca­tion : chaque fois qu’un geste vou­lu va pro­duire un son gênant (choc, fra­cas, grin­ce­ment, chute…), le cor­tex pré­mo­teur envoie auto­ma­ti­que­ment –sauf volon­té par­ti­cu­lière– une copie de l’enveloppe bio­dy­na­mique de ce geste au cor­tex audi­tif, copie qui est aus­si­tôt tra­duite en enve­loppe acous­tique (pro­fil énergétique/temporel du son). C’est cette enve­loppe qui, comme un contre-calque sous­trac­tif, s’interpose pour atté­nuer et arron­dir ce que l’oreille va cap­ter. L’éclat sonore est en quelque sorte assour­di pré­ven­ti­ve­ment, même si le son est émis en léger dif­fé­ré, dans la consé­quence d’un acte (par exemple, cla­quer une porte) ; l’impact atten­du est pareille­ment contre-cal­qué, sur la base d’expériences anté­rieures ou récentes. En sorte que le son enten­du se trouve sen­si­ble­ment apla­ti ou amor­ti par l’intention en acte, un peu comme s’il se trou­vait relé­gué hors du champ de l’attention. Cela n’est pas sans consé­quences, notam­ment lorsque l’on tra­vaille sur du son en train de se faire ou déjà fait.

Reve­nons à la pra­tique du docu­men­taire.

Lorsque l’image dit « cou­pez ! » le son a envie de dire « je n’ai pas fini, çà conti­nue »… il y a comme un conflit d’intention entre l’image qui a son début et sa fin, et le son qui a un autre début, une autre fin, car le pre­neur de sons tra­vaille à la fois en et hors champ, sur la durée propre des évè­ne­ments sonores qui ne sau­raient être cou­pés, en rai­son de leur uti­li­té au mon­tage.

Van Gogh a per­du le même jour son frère et son ami peintre, croit-il… Des heures creuses, dont on ne sait rien, et ce geste fou : devant son miroir, en fin de soi­rée, Vincent se tranche l’o­reille avec son rasoir. Il pisse le sang, l’é­ponge avec des draps, puis tra­verse la ville vers la « mai­son de tolé­rance n°1 » où il demande « Rachel », une jeune femme qu’il connaît, à qui il remet le lobe de son oreille enve­lop­pé dans du papier jour­nal. Elle tombe dans les pommes en ouvrant le paquet.

Quand un « acteur du réel » parle au cinéaste, entend-t-il vrai­ment le son de sa voix, ou plu­tôt ses inten­tions, ou seule­ment le texte qu’il veut faire pas­ser ? A quel moment lâche-t-il assez prise pour faire la syn­thèse des trois, trou­ver le ton juste, les mots exacts ? Com­ment déli­vrer les vraies inten­tions, accé­der au fla­grant délit de sin­cé­ri­té ?

Quand l’ingénieur du son réécoute (au casque) la prise qu’il vient de faire à la perche (sans casque), quelles sont les consignes qu’il se donne pour éva­luer la jus­tesse des sons enre­gis­trés ? La voix est si proche du cer­veau que tout s’entend en termes de ren­du, d’intentions bien ou mal jouées, trop appuyées ou à peine don­nées. De même, la qua­li­té esthé­tique des maté­riaux (per­cus­sions, frot­te­ments, for­mants et réso­nances) entre en jeu non seule­ment pour sou­li­gner et cla­ri­fier la cause ou la consé­quence des éner­gies en mou­ve­ment (l’écoute cau­sale en laquelle nous enfer­mons si volon­tiers le dérou­lé d’un son) mais aus­si pour réveiller des sons cou­sins, des mondes enfouis, des images fur­tives.

Lorsqu’un pia­niste joue, écoute-t-il plu­tôt ses inten­tions (pré­fi­gu­ra­tion de l’expression) ou entend-t-il le son réel­le­ment émis par l’ins­tru­ment ? Peut-il se concen­trer sur le son du pia­no sans perdre le fil pré­mo­teur –tou­jours un peu anti­ci­pé et élar­gi– de l’expression musi­cale ? Ne doit-il pas se réécou­ter pour savoir ce qu’il a effec­ti­ve­ment joué ?

Lorsqu’un mon­teur-son a une idée (son off, détail asso­cié, sou­li­gne­ment sonore, che­vau­che­ment…) écoute-t-il prin­ci­pa­le­ment son idée ou le mélange sonore réel­le­ment obte­nu ? Com­ment éva­luer les sons dans un temps recons­truit, recom­po­sé ? S’agit-il seule­ment de dési­gner ou sou­li­gner le visible par de l’audible ? Com­ment ryth­mer le mon­tage hori­zon­tal (les cor­res­pon­dances ins­tan­ta­nées entre dif­fé­rents sons, directs ou ajou­tés, et l’image) et aus­si bien le mon­tage ver­ti­cal (la suc­ces­sion des images audi­tives en ou hors écran) ?

Lorsqu’un ingé­nieur du son mixe le film (écoute – ana­lyse – trai­te­ment immé­diat au poten­tio­mètre), le tra­vail en temps réel l’oblige à par­ta­ger son atten­tion entre les gestes du mixage (pré­sent per­cep­tif) et la mise en scène (créer un conti­nuum scé­nique incluant un pré­sent très élar­gi). Peut-il contrô­ler audi­ti­ve­ment ce qu’il fait tout en pré-enten­dant ce qu’il a encore à faire et en le reliant à ce qui vient d’être fait ? C’est cer­tai­ne­ment en tra­vaillant par petites touches suc­ces­sives, en se réécou­tant, qu’il peut affi­ner pro­gres­si­ve­ment la balance sonore.

C’est que le mixage tra­vaille à l’échelle de la séquence entière, en pro­po­sant au spec­ta­teur une par­ti­tion atten­tion­nelle, une stra­ti­fi­ca­tion figures/fonds. D’une part, on suit clai­re­ment les sons jugés impor­tants, tels que voix et effets ; d’autre part, on joue de l’ambiance, on la fait vivre, sans pour autant lais­ser ces fluc­tua­tions sub­tiles se faire remar­quer par le spec­ta­teur14. On arrange un cli­mat acous­tique cir­cons­tan­ciel en l’atténuant, en le sim­pli­fiant, le plus sou­vent pour des rai­sons d’intelligibilité. Fonds d’air, bruits adven­tices, sons pas­sa­gers peuvent cepen­dant muter subi­te­ment en sons prin­ci­paux, selon les besoins de la mise en scène.Dans tous les cas, le mixeur affronte l’inter-masquage, à savoir : le déli­cat réglage entre émer­gence et enfouis­se­ment des sons.

Les sons forts cachent les sons faibles (notam­ment ceux situés immé­dia­te­ment au des­sus dans l’échelle des hau­teurs), les per­cu­tantes couvrent les sons tenus, la réver­bé­ra­tion brouille l’intelligibilité ! Le mixeur –comme le com­po­si­teur15 – dis­pose néan­moins de plu­sieurs parades dès l’instant où l’on a recours au mul­ti­pistes, abou­tis­se­ment de la prise de sons frac­tion­née. Il peut pon­dé­rer les sons forts (poten­tio­mètres de mélange), fil­trer les for­mants les plus éner­gé­tiques des sons mas­quants (cor­rec­teurs para­mé­triques), com­pres­ser les per­cu­tantes à front raide (compresseur/limiteur) et atté­nuer ain­si le masque-réflexe16.

A cet égard, l’étalement spec­tral des sons sur les dix octaves de l’audition est déci­sif en mono­pho­nie. Une contre­basse ne sau­rait mas­quer une flûte ! Tan­dis qu’un bruit de cir­cu­la­tion, une chute d’eau (bruit large bande) masquent tous les sons (« chuuut ! »). Aus­si le choix des timbres et des hau­teurs sonores devrait-il se pen­ser dès le tour­nage, en se rap­pe­lant que les sons per­cus­sifs intenses et larges de spectre (mar­teau-piqueur, moby­lette, camion, etc.) sont redou­tables pour les voix (fré­quences médiales). De même, l’étagement des plans sonores est un moyen com­mode de favo­ri­ser l’accommodation audi­tive sur telle ou telle source, selon sa dis­tance, et de la dis­tin­guer par­mi d’autres sons simul­ta­nés. Enfin, il est tou­jours pos­sible de mixer des sons inter­mit­tents (en poin­tillés) avec un son conti­nu : on est là dans une situa­tion com­pa­rable à une scène qui serait obser­vée der­rière un ou plu­sieurs grillages. Tant que le maillage est léger, tant que le fil n’est pas trop gros, il y a encore quelque chose à voir au delà.

Au total, il semble bien que dans la pro­duc­tion humaine de sons (voix, bruits, ins­tru­ments de musique, et même mixage) l’interaction sen­so­ri-motrice modi­fie gran­de­ment la per­cep­tion audi­tive, en mêlant inten­tion ges­tuelle et résul­tat audi­tif ; sur le mode sous­trac­tif en cas de bruit gênant (il n’est pire sourd que celui qui ne veut pas entendre), sur le mode addi­tif dans le cas de sons vou­lus (effet pla­ce­bo : le son réel est embel­li ou arran­gé par l’intention).

Sans aucun doute, les pro­fes­sion­nels du son, aguer­ris par la pra­tique à des auto­ma­tismes solides et nom­breux, se rendent dis­po­nibles pour une écoute plus lucide, plus poin­tue, affran­chie des pro­jec­tions inten­tion­nelles faciles, de la confu­sion naïve entre vou­loir et obte­nir.
Reste que l’œuvre doit pas­ser –mûre­ment inten­tion­née mais tou­jours pos­si­ble­ment conflic­tuelle– à tra­vers plu­sieurs per­sonnes, éti­rée et rete­nue, contrainte et libé­rée, entre contrôle ins­tru­men­tal du pra­ti­cien et lâcher prise artis­tique de l’interprète.

Entre science et art, entre pra­tique et esthé­tique, le dia­logue ne sau­rait –ne devrait– s’interrompre.

 

  1. En mono­pho­nie, si le pro­jec­teur est le haut-par­leur, les écrans de récep­tion ne sont autres que les tym­pans ! Rece­vant à gauche et à droite les mêmes vibra­tions (le même sti­mu­lus), le cer­veau ne peut plus spa­tia­li­ser les sons, condi­tion préa­lable à tout « net­toyage » audi­tif (BMLD) et même à toute foca­li­sa­tion de l’attention (ILD) vers telle ou telle source.
  2. Le son échappe au décou­page en plans. Il est du reste mixé pour la séquence : il s’agit le plus sou­vent de simu­ler l’attention audi­tive et sa par­ti­tion [une zone écou­tée, une ambiance à l’entour] en col­ma­tant les ellipses cachées dans les cuts, entre les plans, pour réta­blir un conti­nuum appa­rent, mal­gré le res­ser­ré du temps.
  3. Mais aucun foyer sonore n’est à même de se com­pa­rer au soleil comme source d’énergie ! Com­bien de téra­watts ? je ne sau­rais le dire. Quand on sait l’énergie acous­tique d’un avion au décol­lage (30 kW) ou celle d’un pia­no (0,3 watt)…
  4. D’où cette dis­pa­ri­té par­fois res­sen­tie entre le voir et l’entendre : une éten­due appa­rem­ment immo­bile (les sources sont cachées à la vue) peut don­ner lieu par­fois à un pay­sage sonore intense, voire conti­nû­ment chan­geant…
  5. Les plis de l’oreille externe pro­voquent des inter­fé­rences construc­tives et des­truc­tives (fil­trage en peigne) qui varient selon la pro­ve­nance des aiguës.
  6. Ce conduit semble adap­té à la sai­sie loin­taine des cris du bébé, dont les fré­quences vocales sont par­ti­cu­liè­re­ment pré­gnantes, même à bonne dis­tance…
  7. Les com­po­si­teurs, les mixeurs jouent du reste constam­ment de l’ef­fet de masque. Et aus­si bien les indus­tries élec­troa­cous­tiques, qui com­pressent elles aus­si les don­nées (ATRAC, MPEG) en s’a­bri­tant sous le même prin­cipe.
  8. Pierre Schaef­fer a été, avec Pierre Hen­ry, l’initiateur de la musique concrète, juste après la deuxième guerre mon­diale. Il a –entre autres– théo­ri­sé et clas­sé les com­po­santes internes des objets sonores, jusqu’alors mal connues.
  9. Pour la TMMP, c’est parce que chaque audi­teur est aus­si un locu­teur, qu’il lui est pos­sible de retrou­ver, à tra­vers la sur­face acous­tique, la struc­ture arti­cu­la­toire sous-jacente. L’analyse des sons (et des mou­ve­ments qui les causent) repose donc sur la connais­sance impli­cite des règles motrices qui orga­nisent les gestes. Selon Jean Dece­ty, cher­cheur en neu­ros­ciences, « un même réseau neu­ro­nal (dans le cor­tex pré­mo­teur) s’active lorsque je vois autrui agir, lorsque j’imagine cette action et lorsque j’agis moi-même » [cf. « Mou­ve­ment réel, mou­ve­ment ima­gi­né » in Science & Vie N°204, hors-série, sep­tembre 1998]. Ce sont les fameux « neu­rones-miroirs », déclen­cheurs d’inférences.
  10. Le pas­sage du signi­fiant (assem­blage de qua­lia) au signi­fié (repré­sen­ta­tion géné­rique) dépend for­cé­ment des expé­riences, de l’habitude, de la pra­tique sociale de tout un cha­cun. D’où cette diver­si­té, maintes fois obser­vée, dans l’écoute des spec­ta­teurs : cer­tains sons res­tent incom­pris, d’autres déclenchent des sou­ve­nirs, des affects.
  11. Plu­sieurs flux audi­tifs peuvent coexis­ter dans une même scène audi­tive, sans que la foca­li­sa­tion sur l’un d’eux n’al­tère la qua­li­té audi­tive des autres. Des filtres atten­tion­nels (filtres en peigne mul­ti-bandes) rehaussent (jus­qu’à 18 dB) la pré­sence de la cible en s’a­dap­tant à ses for­mants acous­tiques. Mais ce fil­trage supra audi­tif laisse intact les appa­rences sonores, il ne modi­fie que la « pré­sence à soi » des choses.
  12. Contrai­re­ment au mon­tage-cut (très rapide) des images, le mixage mono­pho­nique scé­no­gra­phie assez mal les don­nées audi­tives, en rai­son de fina­li­tés oppo­sées au plan des vitesses : en tant que simu­la­tion d’une scène réelle, il s’in­ter­dit le mou­ve­ment rapide et arti­fi­ciel des niveaux, s’o­blige à res­pec­ter les varia­tions natu­relles des flux audi­tifs ; en tant que simu­la­tion de l’é­coute atten­tive d’un audi­teur, il se force aux mou­ve­ments ins­tan­ta­nés du zap­ping audi­tif, et tend à les imi­ter par de prestes chan­ge­ments de niveaux. Les mou­ve­ments de poten­tio­mètres existent, mais ils se dis­si­mulent ou se codi­fient dans un com­pro­mis : un « accé­lé­ré » accep­table par la per­cep­tion, un « ralen­ti » admis­sible par l’at­ten­tion.
  13. Infé­rer : ima­gi­ner la suite, élar­gir le pré­sent actuel en le reliant aux causes pas­sées et aux consé­quences futures.
  14. La sur­im­pres­sion mul­tiple et invi­sible (impos­sible à l’image), est de fac­to l’artefact majeur du son, tan­dis que le cut, le chan­ge­ment d’axe et de dis­tance (peu uti­li­sé au son, trop per­tur­bant) est l’artefact qui orga­nise la bande image.
  15. Pour main­te­nir la pul­sa­tion ryth­mique audible, Mau­rice Ravel rajoute une caisse claire au milieu de son Bolé­ro ; Gus­tav Mal­her, dans ses sym­pho­nies, fait par­ler les cla­ri­nettes au pla­fond pour les rendre moins pré­sentes… A chaque ins­tant, le com­po­si­teur décide du nombre d’instruments, de la den­si­té des timbres, et de la nuance (ppp à fff) dans laquelle ils s’expriment.
  16. Le masque-réflexe appa­raît à l’occasion d’un son sou­dain. Tin­ta­marre, coup de feu, chute d’un objet, puis…silence. L’oreille, habi­tuée au bruit ambiant est sur­prise : ce n’est qu’après un petit ins­tant qu’elle retrouve le fond sonore. Et ce temps de recou­vre­ment (masque-réflexe de quelques dixièmes de secondes, voire plus) est d’autant plus long que le son a été violent. Celles et ceux qui ont connu le disque vinyle et ses rayures ont éprou­vé le masque réflexe : il a fal­lu sou­vent se rési­gner à jeter un disque trop abî­mé.