C’est une petite révolution dans le monde de la synthèse vocale. Microsoft vient de lever le voile sur DragonV2.1, la nouvelle version de son moteur vocal intégré à Azure AI Speech. Et les promesses sont ambitieuses : des voix plus naturelles, plus justes… et plus difficiles à distinguer de la réalité. Là où il fallait auparavant plusieurs minutes de données vocales pour créer un clone convaincant, DragonV2.1 se contente désormais de quelques secondes seulement. Le tout, dans plus de 100 langues. De quoi faire frémir les studios de doublage et ravir les développeurs d’assistants vocaux ou de chatbots.

Par rapport à la précédente version, DragonV1, les améliorations sont nettes. Le nouveau modèle affiche une réduction de 12,8 % du taux d’erreur de mot, et corrige les défauts de prononciation, notamment sur les noms propres. Microsoft promet une prosodie plus fluide, plus stable, plus humaine. Mais ce qui impressionne, c’est le niveau de personnalisation : accents, intonations, lexiques spécifiques, tout peut être modulé grâce aux balises SSML. Des profils vocaux comme Andrew, Ava ou Brian permettent même de tester rapidement les capacités du modèle.

Bien sûr, avec une telle fidélité vocale, le spectre du deepfake plane. Microsoft en est pleinement conscient. Pour prévenir tout usage malveillant, l’entreprise impose des garde-fous stricts : consentement obligatoire, déclaration explicite d’un contenu synthétique, interdiction d’imitation trompeuse, et surtout, ajout automatique d’un filigrane audio. Ce filigrane invisible serait détectable dans 99,7 % des cas, selon l’entreprise. Suffisant pour rassurer ? Rien n’est moins sûr. Mais une chose est claire : avec DragonV2.1, les voix synthétiques viennent de franchir un cap. Entre progrès technologique et enjeu éthique, la voix de demain sera peut-être déjà celle d’une machine.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Microsoft peut cloner des voix à la perf...