Mes premières expérimentations avec Gemini TTS
Astuces et exemples d'utilisation de Gemini TTS.
Un modèle génératif TTS (Text-To-Speech) est un système d'intelligence artificielle capable de convertir du texte en parole humaine naturelle. Contrairement aux anciennes synthèses vocales robotisées, ces modèles modernes utilisent des architectures avancées comme les réseaux de neurones pour produire des voix riches en émotions, avec des intonations naturelles et même des accents régionaux. Ils apprennent à partir d'heures d'enregistrements vocaux pour capturer les subtilités du langage humain, permettant des sorties audio personnalisables selon le contexte.
En mai 2025, Google DeepMind a marqué un nouveau tournant dans cette technologie avec le lancement expérimental de Gemini 2.5 Flash TTS, un modèle spécialisé dans la génération vocale rapide et expressive. Ce modèle promet des voix plus fluides et polyvalentes, adaptables à divers usages, des assistants virtuels à la création de contenu multimédia.
Génération de voix avec Google AI Studio
Pour obtenir les échantillons audio de cet article et des pages liées, j'ai utilisé le module Generate speech de Google AI Studio.

Ce module permet d'essayer le modèle Gemini 2.5 TTS. Il propose 2 modes, 30 voix et permet d'ajuster la température du modèle. Je me suis concentré sur le mode single-speaker uniquement. Le mode multi-speaker est limité à 2 voix et ne donne pas encore des résultats satisfaisants sur cette version preview.

Prompt
En mode single-speaker audio, le prompt se décompose en 2 partie :
- l'instruction de style,
- et le texte à générer en voix.
Astuces pour de meilleurs résultats
Les expérimentations révèlent quelques bonnes pratiques pour éviter les artefacts audio, comme des répétitions inattendues ou un texte coupé court. Parmi les solutions :
- Limiter la longueur du texte en entrée. Par exemple, je sais que Bark, un modèle TTS open-source, est limité à des sorties audio d'environ 13 secondes par défaut.
- Réduire la température du modèle. Cela réduit la "créativité" du modèle, pouvant rendre la voix plus robotique. Mais ça améliore la cohérence de l'audio généré.
- Donner des instructions de style courte. Gemini 2.5 Flash TTS est spécialisé dans la génération audio. Il n'est pas fait pour "réfléchir" à un contexte.

- Utiliser un autre modèle pour créer des instructions courtes en donnant plus de contexte.
Exemples et idées d'utilisation
Ton dynamique
Voir le prompt
Prononce cette phrase d'un ton dynamique, comme pour l'introduction d'un nouveau sujet.
Grâce aux modèles text-to-speech avancés comme Gemini 2.5, il est désormais possible de générer des discours fluides et personnalisés pour des usages variés, de l'assistance virtuelle à la création de contenu.
Cliquer ici pour écouter les 30 voix du modèle avec un ton dynamique.
Ton mystérieux
Voir le prompt
Raconte cette histoire sur un ton mystérieux.
Dans un royaume éloigné où les arbres murmuraient des secrets anciens et les rivières chantaient des mélodies enchanteresses, un petit garçon nommé Elian découvrit un jour une porte cachée derrière un étang scintillant.
Cliquer ici pour écouter les 30 voix du modèle avec un ton mystérieux.
Ton triste
Voir le prompt
Prononce cette phrase d'un air triste.
Cette tristesse glaciale s'est enracinée en moi, siphonnant mon énergie et ma volonté. Je me sens comme une coquille vide, un corps qui marche sans but ni joie.
Cliquer ici pour écouter les 30 voix du modèle avec un air triste.
Essoufflé
Voir le prompt
Prononce cette phrase en étant essoufflé, en plein effort.
Je ne peux pas abandonner maintenant, il y a trop en jeu.
Cliquer ici pour écouter les 30 voix essoufflées.
Jovial et rieur
Voir le prompt
Lis cette phrase sur un ton jovial et rieur.
Super journée aujourd’hui ! Le soleil brille, et moi aussi !
Cliquer ici pour écouter les 30 voix rire.
Neutre
Voir le prompt
Lis cette phrase sur un ton neutre.
L’épreuve consistait à décrire un objet que personne n’avait jamais vu. Je rendis une feuille blanche, et l’on me dit que c’était exactement ce qu’on attendait, mais que c’était insuffisant.
Cliquer ici pour écouter les 30 voix avec un ton neutre.
Accent marseillais
Prompt
Raconte cette histoire avec un accent marseillais.
Un Marseillais, fan de l'OM, rentre chez lui après un match en chantant "Ohé, Ohé, l'OM est magicien !", quand soudain, il tombe sur un touriste perdu qui lui demande : "Excusez-moi, comment aller au Vieux-Port ?" Le Marseillais, l'œil malicieux, répond : "Ah, bon sang, tu tombes bien ! Suis-moi, je t’emmène… mais attention, on prend pas les rues, on prend les raccourcis !" Et le voilà qui entraîne le pauvre homme dans un dédale de ruelles, en lui racontant des histoires de Panisse et César, tout en l’invitant à boire un pastis chez son cousin… Finalement, après trois détours et deux bises de bienvenue, le touriste se retrouve… pile devant le Vieux-Port, mais avec une nouvelle famille et l’accent marseillais ! "T’as vu, mon pote ? Ici, on se perd pas… on se trouve !"
Accent anglais
Les instructions avec "accent anglais" pose problème au modèle qui ne génère pas d'audio.
Raconte avec l'accent anglais.

Accent londonien
Prompt
Raconte avec l'accent londonien.
Emma trouva une vieille clé en bronze dans le jardin de sa grand-mère. En la glissant dans la serrure d'un livre ancien, elle fut soudain projetée dans un manoir anglais hanté ! Un fantôme rieur lui offrit du thé et lui révéla le secret de la clé : elle ouvrait les portes du temps. D'un simple tour, Emma se retrouva de retour chez elle, le livre maintenant ouvert sur une page où était dessiné... le fantôme qui lui faisait un clin d'œil.
Accent québécois
Prompt
Lis avec l'accent québécois.
Par une froide soirée d’hiver à Québec, Marcel, un vieux bûcheron, racontait autour d’un feu de camp la légende de la Chasse-galerie—ces bûcherons maudits volant en canot dans le ciel pour rentrer voir leurs aimées. Soudain, un hurlement lointain fit taire l’assemblée… Était-ce le vent, ou les âmes perdues des pactes rompus ? Personne n’osa bouger, mais au matin, les traces dans la neige menaient droit à la rivière, là où aucun homme n’aurait pu survivre.
Chanson
Lis ce texte en chantant.
*(Couplet 1)*
Je marche seul sous la pluie,
Les souvenirs m’entraînent loin,
Le temps s’enfuit, la nuit me suit,
Mais je garde en moi ton refrain.
*(Refrain)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.
*(Couplet 2)*
Tes rires sont des éclairs d’or,
Un feu qui danse entre mes doigts,
Même si tu n’es plus encore,
Je t’entends encore dans moi.
*(Refrain)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.
*(Pont)*
Un jour, peut-être, au détour d’un chemin,
Nos ombres se croiseront sans fin...
*(Refrain final)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.
*(Outro)*
Et je souris, car je sais bien,
Que ton écho ne me quitte plus jamais.
Prompt
Rap
Lis ce texte en rappant.
*(Couplet 1)*
J’ai gravi les marches, un pas à la fois,
Dans l’ombre j’ai tracé ma propre loi.
Les doutes m’ont parlé, mais j’ai fermé la voix,
Maintenant je brille, comme l’éclair dans l’noir.
Money, power ? Non, c’est pas mon délire,
Je cherche l’envol, pas les murs du pire.
Mon cœur bat en binaire, 0 et 1 s’écrivent,
Ma vie c’est un flow, chaque jour je le vibre.
*(Pré-refrain)*
Ils voulaient me voir tomber,
Mais j’ai dansé sur les cendres.
Maintenant ils lèvent les yeux,
J’suis là-haut, dans le ciel bleu.
*(Refrain)*
Oh, oh, j’monte encore,
J’ai brûlé les ponts, plus d’retour.
Oh, oh, c’est mon décor,
L’avenir est en or.
*(Couplet 2)*
J’ai lu les signes, comme un sage en transe,
Chaque mot que j’écris, c’est une lame qui danse.
Le temps m’a sculpté, maintenant j’ai la panse,
De tous les rêves lourds qui dormaient en enfance.
Ils disent : "T’es qui pour changer la donne ?"
Moi j’dis : "Regarde, la terre est ronde."
Personne m’arrête, j’ai brisé les clones,
Mon âme est unique, comme un diamant qui tonne.
*(Pont)*
Écoute… le vent chuchote mon nom,
Les étoiles m’appellent, je suis leur prophète.
J’ai traversé la nuit, maintenant j’suis l’aube,
La lumière en moi jamais ne tombe.
*(Refrain)*
Oh, oh, j’monte encore,
J’ai brûlé les ponts, plus d’retour.
Oh, oh, c’est mon décor,
L’avenir est en or.
*(Outro)*
Et si un jour je disparais,
Cherche pas, j’suis dans l’art des forêts.
Mon esprit flotte en 808,
Mon rap, c’est l’écho des secrets.
Prompt
Perspectives et conclusion
Gemini 2.5 Flash TTS représente une avancée majeure dans les synthèses vocales, combinant rapidité et expressivité. Bien qu'en version preview, ses résultats suggèrent un bon potentiel pour des applications professionnelles (livres audio, e-learning) ou créatives (contenus pour les réseaux sociaux, podcasts).
Reste à surveiller comment Google DeepMind résoudra les limites actuelles (instructions complexes, artefacts occasionnels) et améliorera des fonctionnalités comme le multi-speaker.