GenAI

Mes premières expérimentations avec Gemini TTS

Astuces et exemples d'utilisation de Gemini TTS.

Ronan Maron

02 juin 2025 — 8 min de lecture

Un modèle génératif TTS (Text-To-Speech) est un système d'intelligence artificielle capable de convertir du texte en parole humaine naturelle. Contrairement aux anciennes synthèses vocales robotisées, ces modèles modernes utilisent des architectures avancées comme les réseaux de neurones pour produire des voix riches en émotions, avec des intonations naturelles et même des accents régionaux. Ils apprennent à partir d'heures d'enregistrements vocaux pour capturer les subtilités du langage humain, permettant des sorties audio personnalisables selon le contexte.

En mai 2025, Google DeepMind a marqué un nouveau tournant dans cette technologie avec le lancement expérimental de Gemini 2.5 Flash TTS, un modèle spécialisé dans la génération vocale rapide et expressive. Ce modèle promet des voix plus fluides et polyvalentes, adaptables à divers usages, des assistants virtuels à la création de contenu multimédia.

Génération de voix avec Google AI Studio

Pour obtenir les échantillons audio de cet article et des pages liées, j'ai utilisé le module Generate speech de Google AI Studio.

Ce module permet d'essayer le modèle Gemini 2.5 TTS. Il propose 2 modes, 30 voix et permet d'ajuster la température du modèle. Je me suis concentré sur le mode single-speaker uniquement. Le mode multi-speaker est limité à 2 voix et ne donne pas encore des résultats satisfaisants sur cette version preview.

Prompt

En mode single-speaker audio, le prompt se décompose en 2 partie :

l'instruction de style,
et le texte à générer en voix.

Astuces pour de meilleurs résultats

Les expérimentations révèlent quelques bonnes pratiques pour éviter les artefacts audio, comme des répétitions inattendues ou un texte coupé court. Parmi les solutions :

Limiter la longueur du texte en entrée. Par exemple, je sais que Bark, un modèle TTS open-source, est limité à des sorties audio d'environ 13 secondes par défaut.
Réduire la température du modèle. Cela réduit la "créativité" du modèle, pouvant rendre la voix plus robotique. Mais ça améliore la cohérence de l'audio généré.
Donner des instructions de style courte. Gemini 2.5 Flash TTS est spécialisé dans la génération audio. Il n'est pas fait pour "réfléchir" à un contexte.

Utiliser un autre modèle pour créer des instructions courtes en donnant plus de contexte.

Exemples et idées d'utilisation

Ton dynamique

Voir le prompt

Prononce cette phrase d'un ton dynamique, comme pour l'introduction d'un nouveau sujet.

Lis cette phrase sur un ton neutre.

L’épreuve consistait à décrire un objet que personne n’avait jamais vu. Je rendis une feuille blanche, et l’on me dit que c’était exactement ce qu’on attendait, mais que c’était insuffisant.

Zephyr - neutre

0:00

/12.370958

Cliquer ici pour écouter les 30 voix avec un ton neutre.

Accent marseillais

0:00

/54.770958

Prompt

Raconte cette histoire avec un accent marseillais.

Un Marseillais, fan de l'OM, rentre chez lui après un match en chantant "Ohé, Ohé, l'OM est magicien !", quand soudain, il tombe sur un touriste perdu qui lui demande : "Excusez-moi, comment aller au Vieux-Port ?" Le Marseillais, l'œil malicieux, répond : "Ah, bon sang, tu tombes bien ! Suis-moi, je t’emmène… mais attention, on prend pas les rues, on prend les raccourcis !" Et le voilà qui entraîne le pauvre homme dans un dédale de ruelles, en lui racontant des histoires de Panisse et César, tout en l’invitant à boire un pastis chez son cousin… Finalement, après trois détours et deux bises de bienvenue, le touriste se retrouve… pile devant le Vieux-Port, mais avec une nouvelle famille et l’accent marseillais ! "T’as vu, mon pote ? Ici, on se perd pas… on se trouve !"

Accent anglais

Les instructions avec "accent anglais" pose problème au modèle qui ne génère pas d'audio.

Raconte avec l'accent anglais.

Accent londonien

0:00

/40.530958

Prompt

Raconte avec l'accent londonien.

Emma trouva une vieille clé en bronze dans le jardin de sa grand-mère. En la glissant dans la serrure d'un livre ancien, elle fut soudain projetée dans un manoir anglais hanté ! Un fantôme rieur lui offrit du thé et lui révéla le secret de la clé : elle ouvrait les portes du temps. D'un simple tour, Emma se retrouva de retour chez elle, le livre maintenant ouvert sur une page où était dessiné... le fantôme qui lui faisait un clin d'œil.

Accent québécois

0:00

/38.210958

Prompt

Lis avec l'accent québécois.

Par une froide soirée d’hiver à Québec, Marcel, un vieux bûcheron, racontait autour d’un feu de camp la légende de la Chasse-galerie—ces bûcherons maudits volant en canot dans le ciel pour rentrer voir leurs aimées. Soudain, un hurlement lointain fit taire l’assemblée… Était-ce le vent, ou les âmes perdues des pactes rompus ? Personne n’osa bouger, mais au matin, les traces dans la neige menaient droit à la rivière, là où aucun homme n’aurait pu survivre.

Chanson

0:00

/93.490958

Lis ce texte en chantant.

*(Couplet 1)*
Je marche seul sous la pluie,
Les souvenirs m’entraînent loin,
Le temps s’enfuit, la nuit me suit,
Mais je garde en moi ton refrain.

*(Refrain)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.

*(Couplet 2)*
Tes rires sont des éclairs d’or,
Un feu qui danse entre mes doigts,
Même si tu n’es plus encore,
Je t’entends encore dans moi.

*(Refrain)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.

*(Pont)*
Un jour, peut-être, au détour d’un chemin,
Nos ombres se croiseront sans fin...

*(Refrain final)*
Ohhh, dans le vent,
Nos voix s’envolent en chantant,
Ohhh, rien ne ment,
L’amour est là, brillant et grand.

*(Outro)*
Et je souris, car je sais bien,
Que ton écho ne me quitte plus jamais.

Prompt

Rap

0:00

/97.170958

Lis ce texte en rappant.

*(Couplet 1)*
J’ai gravi les marches, un pas à la fois,
Dans l’ombre j’ai tracé ma propre loi.
Les doutes m’ont parlé, mais j’ai fermé la voix,
Maintenant je brille, comme l’éclair dans l’noir.

Money, power ? Non, c’est pas mon délire,
Je cherche l’envol, pas les murs du pire.
Mon cœur bat en binaire, 0 et 1 s’écrivent,
Ma vie c’est un flow, chaque jour je le vibre.

*(Pré-refrain)*
Ils voulaient me voir tomber,
Mais j’ai dansé sur les cendres.
Maintenant ils lèvent les yeux,
J’suis là-haut, dans le ciel bleu.

*(Refrain)*
Oh, oh, j’monte encore,
J’ai brûlé les ponts, plus d’retour.
Oh, oh, c’est mon décor,
L’avenir est en or.

*(Couplet 2)*
J’ai lu les signes, comme un sage en transe,
Chaque mot que j’écris, c’est une lame qui danse.
Le temps m’a sculpté, maintenant j’ai la panse,
De tous les rêves lourds qui dormaient en enfance.

Ils disent : "T’es qui pour changer la donne ?"
Moi j’dis : "Regarde, la terre est ronde."
Personne m’arrête, j’ai brisé les clones,
Mon âme est unique, comme un diamant qui tonne.

*(Pont)*
Écoute… le vent chuchote mon nom,
Les étoiles m’appellent, je suis leur prophète.
J’ai traversé la nuit, maintenant j’suis l’aube,
La lumière en moi jamais ne tombe.

*(Refrain)*
Oh, oh, j’monte encore,
J’ai brûlé les ponts, plus d’retour.
Oh, oh, c’est mon décor,
L’avenir est en or.

*(Outro)*
Et si un jour je disparais,
Cherche pas, j’suis dans l’art des forêts.
Mon esprit flotte en 808,
Mon rap, c’est l’écho des secrets.

Prompt

Perspectives et conclusion

Gemini 2.5 Flash TTS représente une avancée majeure dans les synthèses vocales, combinant rapidité et expressivité. Bien qu'en version preview, ses résultats suggèrent un bon potentiel pour des applications professionnelles (livres audio, e-learning) ou créatives (contenus pour les réseaux sociaux, podcasts).

Reste à surveiller comment Google DeepMind résoudra les limites actuelles (instructions complexes, artefacts occasionnels) et améliorera des fonctionnalités comme le multi-speaker.

Mes premières expérimentations avec Gemini TTS

Ronan Maron

Génération de voix avec Google AI Studio

Prompt

Astuces pour de meilleurs résultats

Exemples et idées d'utilisation

Ton dynamique

Voir le prompt

Ton mystérieux

Voir le prompt

Ton triste

Voir le prompt

Essoufflé

Voir le prompt

Jovial et rieur

Voir le prompt

Neutre

Voir le prompt

Accent marseillais

Prompt

Accent anglais

Accent londonien

Prompt

Accent québécois

Prompt

Chanson

Rap

Perspectives et conclusion

Lire la suite

Apache Parquet : Le format de stockage incontournable pour le Big Data

Les 10 concepts mathématiques essentiels en informatique

Apache Airflow : Un outil d'orchestration de Workflows pour les Data Engineers

Solution CSS pour éviter le scrolling horizontal des tableaux dans Ghost