Exemples de voix générées avec Gemini 2.5 TTS : ton mystérieux
Découvrez des voix mystérieuses générées par Gemini TTS, idéales pour créer des ambiances captivantes. Ce modèle de synthèse vocale offre 30 profils vocaux, parfaits pour les livres audio, podcasts ou projets nécessitant une atmosphère envoûtante.
Explorez les capacités du modèle Gemini 2.5 Flash Preview TTS avec ces extraits audio. Doté de voix naturelles et expressives, ce système de synthèse vocale est parfait pour créer des atmosphères mystérieuses et du suspense. Choisissez une des 30 voix disponibles pour vos projets de livres audio, podcasts, documentaires…
Prompt original (température 1)
Raconte cette histoire sur un ton mystérieux.
Dans un royaume éloigné où les arbres murmuraient des secrets anciens et les rivières chantaient des mélodies enchanteresses, un petit garçon nommé Elian découvrit un jour une porte cachée derrière un étang scintillant.
Mes premières expérimentations avec Gemini TTS
Astuces et exemples d’utilisation de Gemini TTS.

Échantillons vocaux
Voix féminines
Achernar
0:00
/21.130958
Aoede
0:00
/20.170958
Autonoe
0:00
/19.730958
Callirrhoe
0:00
/20.850958
Despina
0:00
/18.810958
Erinome
0:00
/22.330958
Gacrux
0:00
/19.690958
Kore
0:00
/19.650958
Laomedeia
0:00
/20.810958
Leda
0:00
/19.770958
Sulafat
0:00
/20.810958
Vindemiatrix
0:00
/19.170958
Zephyr
0:00
/19.330958
Voix neutre
Pulcherrima
0:00
/19.650958
Voix masculines
Achird
0:00
/20.170958
Algenib
0:00
/20.690958
Algieba
0:00
/19.890958
Alnilam
0:00
/20.810958
Charon
0:00
/22.010958
Enceladus
0:00
/19.330958
Fenrir
0:00
/19.410958
Iapetus
0:00
/19.650958
Orus
0:00
/20.170958
Puck
0:00
/18.610958
Rasalgethi
0:00
/18.170958
Sadachbia
0:00
/20.410958
Sadaltager
0:00
/20.810958
Schedar
0:00
/19.810958
Umbriel
0:00
/21.770958
Zubenelgenubi
0:00
/18.810958
Observations
Vous pouvez entendre Sadaltager "halluciner" en prononçant 2 fois "un jour". Il existe plusieurs solutions pour éviter ça :
- Limiter la longueur du texte en entrée. Par exemple, je sais que Bark, un modèle TTS open-source, est limité à des sorties audio d'environ 13 secondes.
- Réduire la température du modèle. Cela réduit la "créativité" du modèle, pouvant rendre la voix plus robotique. Mais ça améliore la cohérence de l'audio généré.
- Regénérer l'audio… À éviter pour l'automatisation d'un processus.
Méthode de génération
Les fichiers audio ont été créés en suivant ces étapes :
- Plateforme : J'ai utilisé Generate speech dans Google AI Studio pour accéder au modèle Gemini 2.5 Flash Preview TTS
- Mode : Sélection du mode "Single-speaker audio" pour une voix cohérente
- Prompt : Utilisation du texte exact fourni dans le prompt
- Paramètres du modèle : Température laissée à la valeur par défaut de 1 (c'est un des premiers styles que j'ai experimenté, et j'ai pu trouver les limites du modèle)