Exemples de voix générées avec Gemini 2.5 TTS : ton mystérieux

Découvrez des voix mystérieuses générées par Gemini TTS, idéales pour créer des ambiances captivantes. Ce modèle de synthèse vocale offre 30 profils vocaux, parfaits pour les livres audio, podcasts ou projets nécessitant une atmosphère envoûtante.

Explorez les capacités du modèle Gemini 2.5 Flash Preview TTS avec ces extraits audio. Doté de voix naturelles et expressives, ce système de synthèse vocale est parfait pour créer des atmosphères mystérieuses et du suspense. Choisissez une des 30 voix disponibles pour vos projets de livres audio, podcasts, documentaires…

Prompt original (température 1)

Raconte cette histoire sur un ton mystérieux.
Dans un royaume éloigné où les arbres murmuraient des secrets anciens et les rivières chantaient des mélodies enchanteresses, un petit garçon nommé Elian découvrit un jour une porte cachée derrière un étang scintillant.
Mes premières expérimentations avec Gemini TTS
Astuces et exemples d’utilisation de Gemini TTS.

Échantillons vocaux

Voix féminines

audio-thumbnail
Achernar
0:00
/21.130958
audio-thumbnail
Aoede
0:00
/20.170958
audio-thumbnail
Autonoe
0:00
/19.730958
audio-thumbnail
Callirrhoe
0:00
/20.850958
audio-thumbnail
Despina
0:00
/18.810958
audio-thumbnail
Erinome
0:00
/22.330958
audio-thumbnail
Gacrux
0:00
/19.690958
audio-thumbnail
Kore
0:00
/19.650958
audio-thumbnail
Laomedeia
0:00
/20.810958
audio-thumbnail
Leda
0:00
/19.770958
audio-thumbnail
Sulafat
0:00
/20.810958
audio-thumbnail
Vindemiatrix
0:00
/19.170958
audio-thumbnail
Zephyr
0:00
/19.330958

Voix neutre

audio-thumbnail
Pulcherrima
0:00
/19.650958

Voix masculines

audio-thumbnail
Achird
0:00
/20.170958
audio-thumbnail
Algenib
0:00
/20.690958
audio-thumbnail
Algieba
0:00
/19.890958
audio-thumbnail
Alnilam
0:00
/20.810958
audio-thumbnail
Charon
0:00
/22.010958
audio-thumbnail
Enceladus
0:00
/19.330958
audio-thumbnail
Fenrir
0:00
/19.410958
audio-thumbnail
Iapetus
0:00
/19.650958
audio-thumbnail
Orus
0:00
/20.170958
audio-thumbnail
Puck
0:00
/18.610958
audio-thumbnail
Rasalgethi
0:00
/18.170958
audio-thumbnail
Sadachbia
0:00
/20.410958
audio-thumbnail
Sadaltager
0:00
/20.810958
audio-thumbnail
Schedar
0:00
/19.810958
audio-thumbnail
Umbriel
0:00
/21.770958
audio-thumbnail
Zubenelgenubi
0:00
/18.810958

Observations

Vous pouvez entendre Sadaltager "halluciner" en prononçant 2 fois "un jour". Il existe plusieurs solutions pour éviter ça :

  • Limiter la longueur du texte en entrée. Par exemple, je sais que Bark, un modèle TTS open-source, est limité à des sorties audio d'environ 13 secondes.
  • Réduire la température du modèle. Cela réduit la "créativité" du modèle, pouvant rendre la voix plus robotique. Mais ça améliore la cohérence de l'audio généré.
  • Regénérer l'audio… À éviter pour l'automatisation d'un processus.

Méthode de génération

Les fichiers audio ont été créés en suivant ces étapes :

  1. Plateforme : J'ai utilisé Generate speech dans Google AI Studio pour accéder au modèle Gemini 2.5 Flash Preview TTS
  2. Mode : Sélection du mode "Single-speaker audio" pour une voix cohérente
  3. Prompt : Utilisation du texte exact fourni dans le prompt
  4. Paramètres du modèle : Température laissée à la valeur par défaut de 1 (c'est un des premiers styles que j'ai experimenté, et j'ai pu trouver les limites du modèle)

Cliquer pour écouter d'autres styles