Mes premières expérimentations avec Gemini TTS

Astuces et exemples d'utilisation de Gemini TTS.

Un modèle génératif TTS (Text-To-Speech) est un système d'intelligence artificielle capable de convertir du texte en parole humaine naturelle. Contrairement aux anciennes synthèses vocales robotisées, ces modèles modernes utilisent des architectures avancées comme les réseaux de neurones pour produire des voix riches en émotions, avec des intonations naturelles et même des accents régionaux. Ils apprennent à partir d'heures d'enregistrements vocaux pour capturer les subtilités du langage humain, permettant des sorties audio personnalisables selon le contexte.

En mai 2025, Google DeepMind a marqué un nouveau tournant dans cette technologie avec le lancement expérimental de Gemini 2.5 Flash TTS, un modèle spécialisé dans la génération vocale rapide et expressive. Ce modèle promet des voix plus fluides et polyvalentes, adaptables à divers usages, des assistants virtuels à la création de contenu multimédia.

Génération de voix avec Google AI Studio

Pour obtenir les échantillons audio de cet article et des pages liées, j'ai utilisé le module Generate speech de Google AI Studio.

Google AI Studio

Ce module permet d'essayer le modèle Gemini 2.5 TTS. Il propose 2 modes, 30 voix et permet d'ajuster la température du modèle. Je me suis concentré sur le mode single-speaker uniquement. Le mode multi-speaker est limité à 2 voix et ne donne pas encore des résultats satisfaisants sur cette version preview.

30 voix
Les 30 voix de Gemini 2.5 TTS

Prompt

En mode single-speaker audio, le prompt se décompose en 2 partie :

  • l'instruction de style,
  • et le texte à générer en voix.

Astuces pour de meilleurs résultats

Les expérimentations révèlent quelques bonnes pratiques pour éviter les artefacts audio, comme des répétitions inattendues ou un texte coupé court. Parmi les solutions :

  • Limiter la longueur du texte en entrée. Par exemple, je sais que Bark, un modèle TTS open-source, est limité à des sorties audio d'environ 13 secondes par défaut.
  • Réduire la température du modèle. Cela réduit la "créativité" du modèle, pouvant rendre la voix plus robotique. Mais ça améliore la cohérence de l'audio généré.
  • Donner des instructions de style courte. Gemini 2.5 Flash TTS est spécialisé dans la génération audio. Il n'est pas fait pour "réfléchir" à un contexte.
Fonctionnalités de Gemini 2.5 TTS
Fonctionnalités de Gemini 2.5 TTS
  • Utiliser un autre modèle pour créer des instructions courtes en donnant plus de contexte.

Exemples et idées d'utilisation

Ton dynamique

Voir le prompt

Prononce cette phrase d'un ton dynamique, comme pour l'introduction d'un nouveau sujet.

Grâce aux modèles text-to-speech avancés comme Gemini 2.5, il est désormais possible de générer des discours fluides et personnalisés pour des usages variés, de l'assistance virtuelle à la création de contenu.

audio-thumbnail
Kore - dynamique
0:00
/13.610958

Cliquer ici pour écouter les 30 voix du modèle avec un ton dynamique.

Ton mystérieux

Voir le prompt

Raconte cette histoire sur un ton mystérieux.

Dans un royaume éloigné où les arbres murmuraient des secrets anciens et les rivières chantaient des mélodies enchanteresses, un petit garçon nommé Elian découvrit un jour une porte cachée derrière un étang scintillant.

audio-thumbnail
Sadaltager - mystérieux
0:00
/20.810958

Cliquer ici pour écouter les 30 voix du modèle avec un ton mystérieux.

Ton triste

Voir le prompt

Prononce cette phrase d'un air triste.

Cette tristesse glaciale s'est enracinée en moi, siphonnant mon énergie et ma volonté. Je me sens comme une coquille vide, un corps qui marche sans but ni joie.

audio-thumbnail
Pulcherrima - triste
0:00
/15.530958

Cliquer ici pour écouter les 30 voix du modèle avec un air triste.

Essoufflé

Voir le prompt

Prononce cette phrase en étant essoufflé, en plein effort.

Je ne peux pas abandonner maintenant, il y a trop en jeu.

audio-thumbnail
Puck - essoufflé
0:00
/5.010958

Cliquer ici pour écouter les 30 voix essoufflées.

Jovial et rieur

Voir le prompt

Lis cette phrase sur un ton jovial et rieur.

Super journée aujourd’hui ! Le soleil brille, et moi aussi !

audio-thumbnail
Orus - rire
0:00
/6.210958

Cliquer ici pour écouter les 30 voix rire.

Neutre

Voir le prompt

Lis cette phrase sur un ton neutre.

L’épreuve consistait à décrire un objet que personne n’avait jamais vu. Je rendis une feuille blanche, et l’on me dit que c’était exactement ce qu’on attendait, mais que c’était insuffisant.

audio-thumbnail
Zephyr - neutre
0:00
/12.370958

Cliquer ici pour écouter les 30 voix avec un ton neutre.


Accent marseillais

audio-thumbnail
Accent marseillais
0:00
/54.770958

Prompt

Raconte cette histoire avec un accent marseillais.

Un Marseillais, fan de l'OM, rentre chez lui après un match en chantant "Ohé, Ohé, l'OM est magicien !", quand soudain, il tombe sur un touriste perdu qui lui demande : "Excusez-moi, comment aller au Vieux-Port ?" Le Marseillais, l'œil malicieux, répond : "Ah, bon sang, tu tombes bien ! Suis-moi, je t’emmène… mais attention, on prend pas les rues, on prend les raccourcis !" Et le voilà qui entraîne le pauvre homme dans un dédale de ruelles, en lui racontant des histoires de Panisse et César, tout en l’invitant à boire un pastis chez son cousin… Finalement, après trois détours et deux bises de bienvenue, le touriste se retrouve… pile devant le Vieux-Port, mais avec une nouvelle famille et l’accent marseillais ! "T’as vu, mon pote ? Ici, on se perd pas… on se trouve !"

Accent anglais

Les instructions avec "accent anglais" pose problème au modèle qui ne génère pas d'audio.

Raconte avec l'accent anglais.
No audio generated

Accent londonien

audio-thumbnail
Accent londonien
0:00
/40.530958

Prompt

Raconte avec l'accent londonien.

Emma trouva une vieille clé en bronze dans le jardin de sa grand-mère. En la glissant dans la serrure d'un livre ancien, elle fut soudain projetée dans un manoir anglais hanté ! Un fantôme rieur lui offrit du thé et lui révéla le secret de la clé : elle ouvrait les portes du temps. D'un simple tour, Emma se retrouva de retour chez elle, le livre maintenant ouvert sur une page où était dessiné... le fantôme qui lui faisait un clin d'œil.

Accent québécois

audio-thumbnail
Accent québécois
0:00
/38.210958

Prompt

Lis avec l'accent québécois.

Par une froide soirée d’hiver à Québec, Marcel, un vieux bûcheron, racontait autour d’un feu de camp la légende de la Chasse-galerie—ces bûcherons maudits volant en canot dans le ciel pour rentrer voir leurs aimées. Soudain, un hurlement lointain fit taire l’assemblée… Était-ce le vent, ou les âmes perdues des pactes rompus ? Personne n’osa bouger, mais au matin, les traces dans la neige menaient droit à la rivière, là où aucun homme n’aurait pu survivre.

Chanson

audio-thumbnail
Chanson
0:00
/93.490958
Lis ce texte en chantant.

*(Couplet 1)*
Je marche seul sous la pluie,
Les souvenirs m’entraînent loin,
Le temps s’enfuit, la nuit me suit,
Mais je garde en moi ton refrain.

*(Refrain)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.

*(Couplet 2)*
Tes rires sont des éclairs d’or,
Un feu qui danse entre mes doigts,
Même si tu n’es plus encore,
Je t’entends encore dans moi.

*(Refrain)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.

*(Pont)*
Un jour, peut-être, au détour d’un chemin,
Nos ombres se croiseront sans fin...

*(Refrain final)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.

*(Outro)*
Et je souris, car je sais bien,
Que ton écho ne me quitte plus jamais.

Prompt

Rap

audio-thumbnail
Rap
0:00
/97.170958
Lis ce texte en rappant.

*(Couplet 1)*
J’ai gravi les marches, un pas à la fois,
Dans l’ombre j’ai tracé ma propre loi.
Les doutes m’ont parlé, mais j’ai fermé la voix,
Maintenant je brille, comme l’éclair dans l’noir.

Money, power ? Non, c’est pas mon délire,
Je cherche l’envol, pas les murs du pire.
Mon cœur bat en binaire, 0 et 1 s’écrivent,
Ma vie c’est un flow, chaque jour je le vibre.

*(Pré-refrain)*
Ils voulaient me voir tomber,
Mais j’ai dansé sur les cendres.
Maintenant ils lèvent les yeux,
J’suis là-haut, dans le ciel bleu.

*(Refrain)*
Oh, oh, j’monte encore,
J’ai brûlé les ponts, plus d’retour.
Oh, oh, c’est mon décor,
L’avenir est en or.

*(Couplet 2)*
J’ai lu les signes, comme un sage en transe,
Chaque mot que j’écris, c’est une lame qui danse.
Le temps m’a sculpté, maintenant j’ai la panse,
De tous les rêves lourds qui dormaient en enfance.

Ils disent : "T’es qui pour changer la donne ?"
Moi j’dis : "Regarde, la terre est ronde."
Personne m’arrête, j’ai brisé les clones,
Mon âme est unique, comme un diamant qui tonne.

*(Pont)*
Écoute… le vent chuchote mon nom,
Les étoiles m’appellent, je suis leur prophète.
J’ai traversé la nuit, maintenant j’suis l’aube,
La lumière en moi jamais ne tombe.

*(Refrain)*
Oh, oh, j’monte encore,
J’ai brûlé les ponts, plus d’retour.
Oh, oh, c’est mon décor,
L’avenir est en or.

*(Outro)*
Et si un jour je disparais,
Cherche pas, j’suis dans l’art des forêts.
Mon esprit flotte en 808,
Mon rap, c’est l’écho des secrets.

Prompt

Perspectives et conclusion

Gemini 2.5 Flash TTS représente une avancée majeure dans les synthèses vocales, combinant rapidité et expressivité. Bien qu'en version preview, ses résultats suggèrent un bon potentiel pour des applications professionnelles (livres audio, e-learning) ou créatives (contenus pour les réseaux sociaux, podcasts).

Reste à surveiller comment Google DeepMind résoudra les limites actuelles (instructions complexes, artefacts occasionnels) et améliorera des fonctionnalités comme le multi-speaker.