aspects techniques de la transcription 1

Aspects techniques de la transcription d'archives audio ou d'entretiens

Je me lance dans la rédaction de ce dossier, parce qu'il devient urgent que je puisse fournir un document synthétique concernant les logiciels et l'équipement nécessaire à la transcription de pistes audio, que ces dernières soient des archives historiques, des interviews de journalistes, des entretiens de socio/ethnographes, etc. Cette urgence trouve son origine dans une situation qui m'apparaît relativement intriguante au fur-et-à-mesure des années : de plus en plus de personnes se lancent dans l'enregistrement d'entretiens sans savoir comment les traiter ensubien encore des journalistes, m'appellent directement ou lancent des bouteilles à la mer dans twitter, pour savoir "quel est le logiciel qui, rapidement, pourrait mâcher largement le travail de transcription d'entretiens, souvent un grand nombre, qui doivent être analysés avant le [insérer ici une date particulièrement imminente...]". Donc, en général, la requête est accompagnée d'une certaine panique. Disposer aujourd'hui des moyens techniques d'enregistrer facilement et à moindre frais une piste audio n'offre pas pour autant de solutions toutes faites pour organiser l'ensemble du workflow qui préside à la transcription et à l'analyse de cette piste audio. Le plus pratique reste, comme bien souvent, de s'y préparer un petit peu avant même de faire le premier entretien, et d'éviter les désagréments d'un bidouillage fait dans l'urgence.

Sur son blog, Alex Alber expliquait en 2010 que l'automatisation de la transcription textuelle de pistes audio n'était pas pour demain, en tout cas pas dans le champ des SHS, et ce, moins par manque de technologies puissantes (elles existent d'autant plus presque dix ans après), mais principalement parce que la reconnaissance vocale automatisée n'est pas du tout adaptée au type de travail qui doit être fourni lors des transcriptions scientifiques ou journalistiques. Et ça ne marche pas vraiment, même si c'est "juste pour mâcher le travail". Trust me, je serais le premier à en faire la promotion si c'était le cas, cependant, la reconnaissance vocale automatisée a besoin d'un cadre très précis pour fonctionner, la transcription de courriers, par ex. des courriers dictés "déjà rédigés" par le/la boss à son/sa secrétaire, ou bien une série de questions aux formes redondantes et anticipables par des bibliothèques logicielles ou bien des services en lignes découpant la piste audio pour en faire transcrire des portions par des micro-tâcheron·nes à l'autre bout de la planète (comme dans le cas des assistants vocaux connectés).

À l'inverse, en SHS, une transcription demande d'absorber la complexité du langage oral, des mots oubliés, des contractions, des accents, des déformations de la voix par les émotions, des noms propres, des lexiques non systématisés des jargons techniques et des argots, des discussions en plusieurs langues, et surtout, de la syntaxe parfois délirante de nos phrases à l'oral, qui n'en finissent jamais de rebondir, de se reprendre, de ne pas mettre de verbe, ou de multiplier les sujets, etc. Bref, soyons clair·es, ce n'est simplement pas le même travail. Et le travail que tout le monde espère pouvoir éviter se trouve être très précisément un travail difficile mais aussi un travail passionnant à fournir soi-même ; car faire le travail de transcription soi-même, c'est déjà faire la moitié du travail d'analyse ( ce que ne fera jamais la reconnaissance automatisée).

Ce dossier vise donc à regrouper les réponses que je formule à chaque fois que cette requête d'un logiciel miracle m'est formulée. Il vise donc à fournir quelques pistes pour se préparer au mieux, à moindre frais à l'enregistrement de pistes, à leur traitement et leur transcription, et va se concentrer principalement sur les aspects technologiques de la transcription de documents sonores, et principalement sur les méthodes numériques de transcription, qui impliquent le plus souvent la numérisation préalable des pistes audio à transcrire. Pour des conseils portant directement sur les techniques plutôt que sur les technologies de transcription, on peut se plonger dans la lecture du texte très complet de Thibaut Rioufreyt intitulé "La transcription d’entretiens en sciences sociales".

Pour se construire des moyens de transcrire des pistes audio, on va lister ici différentes technologies de transcription. Celles-ci trouvent des degrés de pertinence tout à fait variables suivant les projets de recherche ou d'investigation dans lesquels on les sollicite. En effet, certaines de ces technologies ont un coût d'entrée élevé, demandant à être parfaitement maîtrisées avant même de commencer à être efficaces, alors que d'autres, plus artisanales et/ou plus versatiles et adaptables, sont moins coûteuses en argent comme en temps d'apprentissage, même si elles risquent d'être aussi largement moins productives sur un long terme. Aussi, il est fort probable que chacun·e ait à composer (et tester !) une manière particulière de faire suivant les conditions matérielles, disciplinaires et temporelles propres à sa situation.

Avant de passer aux techniques de transcription à proprement parler, il faut comprendre que la transcription commence bien avant la transcription, au moment de l'enregistrement. On va donc commencer, dans ce post, par lister quelques recommandations concernant la prise de son et le traitement des fichiers audio préalable à leur écoute. On enchaînera avec une section portant sur le couple polyvalent et totalement gratuit VLC + éditeur de texte. Dans un post suivant, on se penchera sur quelques exemples de logiciels dédiés, qu'ils se contentent d'offrir la maîtrise de la piste audio ou bien d'intégrer sa lecture dans un environnement complètement dédié à la transcription du texte, à son indexation et son marquage/tagguage par des balises. En fin de ce second post figurera une petite bibliographie indicative. Bonne lecture, et bonne transcription !

Transcrire quoi, et avec quelles contraintes matérielles ?

Cette section vise d'abord à faire le point sur ce qui va rendre possible la transcription, c'est-à-dire l'acquisition et la lecture d'une piste audio. En effet, nombre de paramètres entrent en compte sur la qualité et la pénibilité de l'écoute lors de la transcription, que ce soit des réglages ou des manières de faire propres à la prise de son ou bien des techniques de compression ou de conversion du fichier numérique.

La captation sonore : éviter les catastrophes

Les situations d'enregistrement recouvrent une variété très importante qui empêche de fournir des conseils détaillés pour chacune de ces situations sur un mode tutoriel : on peut lister l'usage d'enregistreurs de qualité professionnelle ou amateur coûtant plusieurs centaines d'euros comme l'usage de dictaphones bas de gamme, dont les prix tournent autour de 40€, comme encore l'usage des applications de smartphones dont la qualité varie autant en fonction des types de compression que de la qualité du micro du dit smartphone.

Pourtant la qualité du matériel joue un rôle important dans l'enregistrement. Dans les années 90, ce n'est pas que l'on ne pouvait pas enregistrer sur un dictaphone en plastique à mini-cassettes coûtant 200F (env. 30€), mais le son était beaucoup plus difficile à écouter par la suite que si l'entretien était effectué à l'aide d'un enregistreur avec une structure métallique et des cassettes standards coûtant plus de 1000F (env. 150€). Sauf que, étudiant·e, on achetait le dictaphone à 200F et c'était déjà l'investissement de l'année. Rien n'a vraiment changé depuis, même si entre temps, on a enregistré sur des minidiscs, des micro-cassettes, des dictaphones "son numérique" en format .wma pourri (mais si compact !), des smartphones haut de gamme, etc.

Quel que soit le matériel dont on dispose, au final, il est possible de prendre soin de la qualité des enregistrements audio et d'améliorer en conséquences le confort d'écoute lors de la transcription. Ainsi, si l'on fait passer les entretiens soi-même ou que l'on peut jouer d'une manière ou d'une autre sur l'enregistrement des pistes audio, on peut veiller à :

  • diriger le micro vraiment vers la personne interviewée (surtout si l'on se trouve dans un environnement un peu bruyant). Si cette personne se déplace, on peut réorienter le micro, tout dépend de la marge de manœuvre qu'il y a rendre l'enregistreur visible, notamment si la personne est timide et a mis une heure avant d'être à l'aise, ce n'est peut-être pas très judicieux de lui faire remarquer à nouveau qu'elle est enregistrée...

  • faire usage d'un micro exterieur sur un appareil qui permet d'en brancher un. Cela offre souvent un son meilleur (sur les smartphones notamment)

  • mettre une bonnette sur le micro si l'enregistrement se fait en extérieur et qu'il y a un risque de vent (même pas très fort). Une bonnette c'est un petit chapeau en mousse ou en tissu poilu - ça peut être très artisanal : le principe c'est que le vent soit "perdu" dans le tissu ou les poils de la bonnette avant d'entrer en contact avec le micro

  • bien régler le volume d'enregistrement si la machine le permet, le réglage du gain d'entrée (pas celui du casque)

  • bien choisir le format d'enregistrement du fichier audio : Souvent les smartphones et les dictaphones proposent deux formats d'enregistrement : le wav d'un côté et le mp3/wma/aac de l'autre. Enregistrer en wav est censé fournir une "qualité CD" au final, mais pose le problème d'un très gros fichier en sortie aussi tout simplement parce que le fichier wav ne sera pas compressé. Donc, à moins de vouloir diffuser des portions de la piste audio à la radio par la suite, enregistrer en wav est inutile, et choisir une bonne qualité d'enregistrement de l'un des autres formats, qui eux compressent les données, est donc fort judicieux pour le rapport qualité/taille finale du fichier.

  • Choisir un format qui compresse les données n'implique pas pour autant de choisir un taux de compression ridiculement faible du fichier numérique. En effet, s'il est important de produire une piste audio qui soit la moins gourmande possible en espace de stockage, il n'en reste pas moins que cette piste audio doit être la moins problématique possible pour l'écoute, et un compromis doit alors être trouvé. La règle du "qui peut le plus peut le moins" est alors de rigueur. Si l'on enregistre en mp3, il n'est pas conseillé de descendre en-dessous de 128Khz pour la fréquence d'échantillonnage numérique (le taux de compression), les voix devenant vraiment pénibles à écouter avec un taux de compression avoisinant les 60khz. Aussi, on peut enregistrer une interview avec une très faible compression du fichier (un taux de 256khz ou 320khz par exemple), quitte à recompresser le fichier, une fois la transcription effectuée, au moment de son archivage (sauf, bien entendu, si les archives doivent être détruites).

  • si besoin, enregistrer un entretien en mono plutôt qu'en stéréo permet de gagner souvent plus de place (la moitié, puisqu'on enlève un canal sur deux) que de changer le taux de compression, et, finalement, sans perdre énormément d'informations utiles à la transcription. C'est aussi un moyen de gagner de la place lors de l'archivage des données à la fin de l'enquête.

  • régler un tout autre type de fréquences qui, cette fois-ci, concerne le son lui-même et pas la taille des fichiers numériques. En effet, si l'enregistreur le permet, il est conseillé de le régler pour qu'il n'enregistre pas les fréquences en-dessous de 120hz (les bruits de camions, etc.), et au-dessus de 8Khz. Cette suppression "à la source" permet de garder l'ensemble des fréquences de la voix ( juste au-dessus de 120hz, on trouve les "p" et les "b", et juste en dessous de 8Khz, on trouve les sifflantes telles que le "s"). Enregistrer seulement les fréquences dans lesquelles on capte la voix permet de ne pas perdre celle-ci lors d'un événement impliquant un "bruit sourd" dans l'environnement immédiat de l'enregistrement.

  • mettre des piles dans le dictaphone/l'enregistreur (oui, oui, l'absence de pile est la raison principale de la "mauvaise qualité" des enregistrement audio en SHS) (sans blague !) (vraiment, avoir toujours des piles de rechange, une batterie supplémentaire, etc., c'est la base.).

La conversion et l'optimisation des pistes audio : éviter de gâcher ce qui a déjà été (bien) fait

En premier lieu, une fois l'enregistrement terminé, il est important de sauvegarder rapidement les pistes audio que l'on vient d'enregistrer, d'autant plus lorsque la capture a été faite à partir d'un appareil polyvalent et fragile comme un smartphone. Il existe mille manières de perdre les enregistrement d'interviews, et si je prends mon cas comme exemple, je me suis fait voler des cassettes dans une besace lors d'un braquage, j'ai perdu des pistes audio sauvegardée sur des CD gravés qui ont fondu dans l'incendie de mon appartement, j'ai effacé par mégarde des pistes sur un enregistreur numérique que je voulais prêter à une collègue, etc. Personne n'est à l'abri de ce genre de choses, personne. Les principes génériques de sauvegarde des données numériques s'appliquent ici : sauvegarder les fichiers dans aux moins deux endroits différents, et sur des types de supports différents : un disque dur, un serveur à distance (un cloud comme on dit) et/ou une clé USB déposée rapidement chez sa mémé, par exemple.

Il peut arriver que les fichiers comportant les pistes audio ne soient pas enregistrés dans un format lisible par le logiciel d'assistance à la transcription que l'on compte utiliser. Ce type de problème ne se pose en général pas si l'on choisit d'utiliser un logiciel polyvalent comme VLC pour lire la piste audio, et c'est plutôt lorsque l'on a affaire à des logiciels dédiés à la transcription soit un peu obsolètes, soit un peu exotiques que le problème peut se poser. Sous Linux, on peut faire appel à l'excellent xcfa qui, une fois que l'on a téléchargé l'ensemble des librairies/codecs nécessaires, constitue une véritable petite machine à convertir une piste audio d'un format de fichier vers un autre. Pour les systèmes win7/8/10 ou macosX, il semble que fre:ac soit une bonne alternative.

On peut aussi, tout simplement, opter pour un usage de VLC, qui n'en finit pas d'être un couteau suisse de l'audiovisuel, et relativement simple à utiliser pour convertir le format de fichiers audio. Ici un mini-tuto pour le faire sour linux (debian), mais qui devrait être suffisant pour s'en sortir depuis win7/8/10 ou macOSx :

  • d'abord cliquer le menu Média puis convertir/enregistrer, une fenêtre s'ouvre

  • dans celle-ci, rester dans l'onglet fichiers et ajouter le fichier à convertir puis cliquer sur convertir/enregistrer

  • la fenêtre se transforme, sélectionner le profil à choisir avec le menu déroulant "audio - MP3" par exemple.

  • si besoin : cliquer sur l'icône modifier le profil sélectionné, la fenêtre se transforme à nouveau, aller à l'onglet codecs audio et régler le débit (qui est à 128Khz par défaut - normalement, on aura enregistré plutôt à 256 ou 320Khz, l'objectif est donc de ne pas descendre en dessous du taux que l'on avait choisi à l'enregistrement), passer canaux à "1" pour passer en mono, cliquer sur enregistrer à nouveau

  • on revient à la fenêtre précédente : cliquer sur parcourir, indiquer le nom du fichier de destination de la conversion, cliquer sur enregistrer

  • on revient à la fenêtre précédente : cliquer sur démarrer, VLC lance la lecture/diffusion du fichier (vraiment) et le convertit à la volée. Ça y est, le fichier au format lisible dans le logiciel de transcription est prêt !

Prendre soin de la qualité de l'enregistrement est une chose, cependant on ne réalise pas toujours soi-même les captures audio. Il peut arriver qu'on les récupère dans des archives en ligne/numériques, qu'on se les voit confier en même temps que la charge de transcrire des entretiens que l'on n'a pas fait passer soi-même. Il arrive encore que l'on n'ait eu aucune maîtrise des conditions d'enregistrement (un entretien impromptu en plein Mistral ou bien sur une aire d'autoroute, ça arrive...). Dans ce dernier cas, il est probable que la marge d'amélioration du son soit alors très faible (c'est qu'on n'est pas dans les Experts-Las Vegas, non plus !). Malgré tout, on peut tenter (sur une copie et non sur le fichier original) de "rattraper" une piste audio de mauvaise qualité avec plus ou moins de succès. C'est en effet parfois nécessaire, pour tenter :

  • de faire taire, comme indiqué plus haut, les fréquences inférieures à 120hz et supérieures à 8KHz. Toutefois, cela aura un effet moindre que si l'opération est réalisée lors de l'enregistrement, puisque le son situé "entre" ces fréquences pourra avoir été abimé par elles, et ne pourra pas être, entre temps, reconstruit.

  • écouter avec un casque ou des enceintes de meilleure qualité que le casque standard de smartphone ou les enceintes minuscules et grésillantes d'un ordinateur portable (oui, même celles d'un macbook qui brille ne valent pas un bon casque branché sur le même macbook, qui n'en brillera d'ailleurs pas moins...).

  • travailler en séquences courtes de 30 minutes maximum pour ne pas s'épuiser à écouter des voix abimées, ou bien (même si c'est triste pour la science), dès le départ, s'attendre à ne pas pouvoir retranscrire la piste audio dans sa totalité... Ça arrive.

À suivre...

Voilà pour ce premier post. Les conditions techniques de la transcription commencent avec l'enregistrement des pistes. Le post suivant aborde la question de l'organisation de la transcription suivant différents scénarios, et se poursuit avec le déploiement d'une solution gratuite et libre avec le logiciel multiplateforme VLC et d'un clavier, et éventuellement, pour un budget supplémentaire modeste, d'une pédale de transcription. C'est par ici !

Article précédent Article suivant


Creative Commons License