L’audio, une nouvelle voie pour l’IA?

On a tous et toutes vu passer la controverse entourant Velvet Sundown, ce groupe qui a franchi le cap du million d'écoutes sur Spotify… et qui a finalement annoncé qu’il était entièrement généré par l’intelligence artificielle. Ni musiciens, ni studio, et aucun signalement de la part du service de streaming indiquant que le contenu était intégralement conçu par l’IA. Difficile de ne pas voir dans cette affaire le reflet des nouveaux casse-têtes éthiques et administratifs créés par l’IA, mais aussi les nouvelles opportunités offertes par le territoire de l’audio. Surtout que, jusqu’ici, l’IA s’était imposée dans les univers textuels et visuels, mais on est forcé de constater qu’elle bouge encore plus vite que prévu et qu’elle commence maintenant à bouleverser l’audio, cet espace longtemps considéré comme l’un des plus humains et plus sensibles. L’exemple de Velvet Sundown en est la preuve : la voix, le timbre et les ambiances sonores sont aujourd’hui générés de manière assez réaliste, et arrivent à toucher nos oreilles et nos émotions.

Et si la musique a été la première secouée par ce mouvement, la publicité audio se retrouve désormais au cœur de ces mêmes préoccupations. Spotify teste déjà des formats de pub générées par l’IA et des plateformes spécialisées proposent de créer des spots radio complets en quelques minutes, faisant miroiter aux marques des promesses alléchantes de rapidité, de personnalisation et d’optimisation des coûts. Mais cette promesse entraîne aussi une série de questions concernant la transparence, l’éthique, et surtout, la confiance du public.

L’IA audio, entre prouesse technique et illusion
Le cas de Velvet Sundown n’est pas isolé. Qu’on pense à la voix d’Open AI, « Sky », qui était étrangement similaire à celle de Scarlett Johansson (qui avait d’ailleurs décliné l’offre d’être la voix de Sky quelques années plus tôt), ou encore à la montée effrayante des fraudes vocales qui utilisent les voix des proches pour berner les victimes… Disons que ces quelques cas illustrent bien la problématique à laquelle nous faisons face avec cette technologie : l’IA peut produire du contenu audio crédible, cohérent et exploitable en quelques clics.

Mais du côté de la pub ? « L'IA audio est bien installée dans le monde publicitaire et chaque jour, de nouveaux outils évoluent et viennent s'ajouter à un immense terrain de jeu créatif », explique Alexandre Wang-Legentil, vice-président à la production et la post-production chez Publicis Montréal. « Et les résultats sont déjà vraiment impressionnants. » Selon lui, la génération de voix et de musique par IA peut bel et bien accélérer des tâches de production, libérant du temps pour la création. Mais il souligne que l’illusion a ses limites : « La flexibilité, l’intention, l’émotion… ce qu’un·e comédien·ne ou musicien·ne ajuste en studio, l’IA peine encore à le reproduire, bien que notre technologie progresse rapidement. »

Alexandre Wang-Legentil,
Crédit : Annie-Claude Photographie

De son côté, la chercheuse spécialisée en éthique de l’IA, Amélie Raoul, rappelle que la prouesse technique ne peut pas masquer les enjeux de fond : « L’IA produit des contenus auditifs qui ressemblent à l’humain, mais sans aucune transparence sur les sources. Qui possède ces voix ? Comment ont-elles été entraînées ? Ce flou met directement en jeu la confiance. »

Amélie Raoul

Difficile, en effet, de ne pas voir dans l’affaire Velvet Sundown un avant-goût des dilemmes que devront affronter les agences et les marques : si l’audio est désormais générable à grande échelle, la question n’est pas tant de savoir si l’illusion fonctionne que de déterminer où placer la ligne entre prouesse technologique et usage éthique.

L’IA en pub audio : promesses et réalités de terrain
Dans l’univers publicitaire, l’audio a toujours occupé une place particulière : assistant·es vocaux, jingles musicaux, spots radio, narrations de campagnes… autant de formats qui accompagnent les auditeur·rices dans leurs déplacements, leurs routines, leurs instants de détente. L’arrivée de l’IA dans ces espaces suscite donc à la fois curiosité et prudence.

L’IA offre déjà des gains de temps et de flexibilité, surtout durant les premières étapes de création et de brainstorm. « On peut créer en quelques minutes une maquette sonore complète avec voix, musique et design sonore, là où il fallait auparavant plusieurs jours de travail », explique Alexandre Wang-Legentil. Pour les agences, ça signifie de pouvoir tester rapidement des concepts, produire des variantes de pubs en série, ou encore présenter des pistes créatives aux client·es plus tôt dans le processus. Mais cette efficacité à un revers. D’une part, les voix générées manquent encore de nuances, surtout en français québécois et ne peuvent donc pas servir de produit final. « Même si l’IA peut simuler une voix, elle ne peut pas improviser, réagir ou interpréter avec la même finesse qu’un·e artiste en studio », rappelle le vice-président à la production et la post-production chez Publicis Montréal. Pourquoi ? « Parce qu’une bonne publicité repose sur l’authenticité et la précision : un texte de 30 secondes peut demander des heures d’enregistrement avec un·e comédien·ne pour trouver la bonne intonation, un luxe et un degré de précision que l’IA ne peut pas encore nous offrir, clairement. Mais aussi, un processus créatif qui n’est pas non plus offert par l’IA en audio », résume Alexandre. Autre vérité constatée par l’expert en publicité : la clientèle ne se sent pas nécessairement prête à faire le pas complet vers l’IA pour plusieurs raisons, principalement pour la question de transparence et d’authenticité et Publicis Montréal les supporte activement dans cette réflexion transparente sur l'éthique.

Dilemmes éthiques et contractuels
Si l’IA en audio suscite autant de débat sur la place publique, c’est qu’elle met rapidement en lumière des questions de confiance, de droits et de transparence. Dans la musique, l’affaire Velvet Sundown a montré à quel point l’absence de signalement brouille la frontière entre création humaine et production automatisée. En publicité, le flou peut coûter cher : il ne s’agit pas seulement de séduire un public, mais aussi de protéger une marque et ses relations avec ses partenaires.

Pour Alexandre Wang-Legentil, l’enjeu est immédiat : « Même si la technologie est prête, il y a une responsabilité et une éthique de vouloir prioriser le travail humain. » Publicis Montréal et ses client·es, par exemple, ajoutent des clauses précises dans leurs contrats afin de savoir quand, comment et dans quelle mesure l’IA sera utilisée. Et même dans les cas où la solution technique paraît idéale, par exemple lorsqu’un seul mot doit être remplacé dans une campagne déjà enregistrée, l’expérience vécue d’Alexandre Wang-Legentil montre que la majorité des comédien·nes préfèrent revenir en studio.

Et c’est précisément ce refus « d’aller trop vite » qui rejoint les préoccupations d’Amélie Raoul. La chercheuse rappelle que derrière l’apparente fluidité se cache un risque de banalisation : « Les voix générées semblent naturelles, mais elles sont issues de données dont l’origine n’est pas toujours transparente, et c’est ça qui inquiète le public et les artistes. Si ces corpus reprennent des voix ou des extraits existants sans consentement, on ouvre la porte à des atteintes directes aux droits d’auteur et aux droits de la personnalité. » Ce qui est non sans rappeler le fait que le droit actuel évolue plus lentement que la technologie, créant ainsi des zones grises où l’initiative revient souvent aux entreprises… ou aux victimes de plagiat.

Entre fascination et inquiétude, l’IA comme terrain d’expérimentation créative
Au-delà des contraintes, l’IA ouvre aussi un terrain de jeu inédit pour la création. En publicité, expérimenter fait partie du métier : tester des idées, provoquer l’effet « wow » durant un pitch, tous les moyens sont bons pour arriver à créer la meilleure idée de campagne. Sous cet angle, l’IA séduit par sa capacité à générer en quelques minutes ce qui aurait pris autrefois plusieurs jours.

« C’est comme un brainstorm infini, résume Alexandre Wang-Legentil. Produire une maquette sonore, tester trois variantes d’un scénario ou imaginer un jingle décalé devient plus rapide et plus accessible. Même si tout n’est pas exploitable, je crois que la vraie puissance de l’IA en audio s’expérimente dans tout ce que les outils peuvent faire pour élargir nos horizons créatifs et accélérer la validation de nos intuitions et de nos idées. » Mais l’enthousiasme appelle à la prudence. « Ce n’est pas parce qu’un outil rend possible une idée qu’il faut l’exploiter sans filtre », rappelle Amélie Raoul. L’IA stimule l’imaginaire, mais peut aussi recycler des fragments existants et brouiller la valeur humaine derrière la création.

Alors l’audio est-elle une nouvelle voie pour l’IA en pub ?
À cette question, force est d’admettre que la réponse est… oui et… non. Si la technologie est déjà au rendez-vous, son adoption reste freinée par des réflexions juridiques, artistiques, culturelles et éthiques. La voix humaine demeure un symbole trop fort pour être confiée, sans réserve, à une machine.

Pour Alexandre Wang-Legentil, la vigilance reste donc de mise. Utiliser l’IA sans réfléchir peut rapidement envoyer un message contradictoire et une marque qui prône la transparence ou l’authenticité pourrait se retrouver piégée par une campagne perçue comme artificielle, voire opportuniste. Certains géants mondiaux en ont déjà fait l’expérience : miser sur l’IA sans préparation, c’est courir le risque d’un véritable PR nightmare.

Au Québec, la sensibilité est encore plus forte : on valorise les artistes d’ici, les voix d’ici, les produits d’ici. Remplacer tout ça par une voix générée, c’est jouer avec une corde délicate de l’identité collective, rappelle Alexandre Wang-Legentil. « La vraie question pour les marques devient alors : jusqu’où veut-on — et jusqu’où est-on prêt — à utiliser l’IA? Chez Publicis Montréal, nous nous positionnons dans ce "sweet spot" entre l’efficacité technologique et le respect des valeurs humaines. »

Son dernier conseil, sans doute le plus important : « Tout le monde finira par avoir accès aux mêmes outils. La seule véritable différence viendra de l’humain derrière la machine. C’est lui, avec son intention, sa créativité, son regard, qui permettra aux marques de se démarquer sans trahir leur identité. »