Exemples de voix générées avec Gemini 2.5 TTS : ton mystérieux

Découvrez des voix mystérieuses générées par Gemini TTS, idéales pour créer des ambiances captivantes. Ce modèle de synthèse vocale offre 30 profils vocaux, parfaits pour les livres audio, podcasts ou projets nécessitant une atmosphère envoûtante.

Explorez les capacités du modèle Gemini 2.5 Flash Preview TTS avec ces extraits audio. Doté de voix naturelles et expressives, ce système de synthèse vocale est parfait pour créer des atmosphères mystérieuses et du suspense. Choisissez une des 30 voix disponibles pour vos projets de livres audio, podcasts, documentaires…

Prompt original (température 1)

Raconte cette histoire sur un ton mystérieux.

Dans un royaume éloigné où les arbres murmuraient des secrets anciens et les rivières chantaient des mélodies enchanteresses, un petit garçon nommé Elian découvrit un jour une porte cachée derrière un étang scintillant.

Échantillons vocaux

Voix féminines

audio-thumbnail

Achernar

0:00

/21.130958

audio-thumbnail

Aoede

0:00

/20.170958

audio-thumbnail

Autonoe

0:00

/19.730958

audio-thumbnail

Callirrhoe

0:00

/20.850958

audio-thumbnail

Despina

0:00

/18.810958

audio-thumbnail

Erinome

0:00

/22.330958

audio-thumbnail

Gacrux

0:00

/19.690958

audio-thumbnail

Kore

0:00

/19.650958

audio-thumbnail

Laomedeia

0:00

/20.810958

audio-thumbnail

Leda

0:00

/19.770958

audio-thumbnail

Sulafat

0:00

/20.810958

audio-thumbnail

Vindemiatrix

0:00

/19.170958

audio-thumbnail

Zephyr

0:00

/19.330958

Voix neutre

audio-thumbnail

Pulcherrima

0:00

/19.650958

Voix masculines

audio-thumbnail

Achird

0:00

/20.170958

audio-thumbnail

Algenib

0:00

/20.690958

audio-thumbnail

Algieba

0:00

/19.890958

audio-thumbnail

Alnilam

0:00

/20.810958

audio-thumbnail

Charon

0:00

/22.010958

audio-thumbnail

Enceladus

0:00

/19.330958

audio-thumbnail

Fenrir

0:00

/19.410958

audio-thumbnail

Iapetus

0:00

/19.650958

audio-thumbnail

Orus

0:00

/20.170958

audio-thumbnail

Puck

0:00

/18.610958

audio-thumbnail

Rasalgethi

0:00

/18.170958

audio-thumbnail

Sadachbia

0:00

/20.410958

audio-thumbnail

Sadaltager

0:00

/20.810958

audio-thumbnail

Schedar

0:00

/19.810958

audio-thumbnail

Umbriel

0:00

/21.770958

audio-thumbnail

Zubenelgenubi

0:00

/18.810958

Observations

Vous pouvez entendre Sadaltager "halluciner" en prononçant 2 fois "un jour". Il existe plusieurs solutions pour éviter ça :

Limiter la longueur du texte en entrée. Par exemple, je sais que Bark, un modèle TTS open-source, est limité à des sorties audio d'environ 13 secondes.
Réduire la température du modèle. Cela réduit la "créativité" du modèle, pouvant rendre la voix plus robotique. Mais ça améliore la cohérence de l'audio généré.
Regénérer l'audio… À éviter pour l'automatisation d'un processus.

Méthode de génération

Les fichiers audio ont été créés en suivant ces étapes :

Plateforme : J'ai utilisé Generate speech dans Google AI Studio pour accéder au modèle Gemini 2.5 Flash Preview TTS
Mode : Sélection du mode "Single-speaker audio" pour une voix cohérente
Prompt : Utilisation du texte exact fourni dans le prompt
Paramètres du modèle : Température laissée à la valeur par défaut de 1 (c'est un des premiers styles que j'ai experimenté, et j'ai pu trouver les limites du modèle)

Cliquer pour écouter d'autres styles