El nuevo modelo de lenguaje de Microsoft Vall-E Se dice que puede imitar cualquier voz usando solo una muestra de grabación de tres segundos.
La herramienta de inteligencia artificial lanzada recientemente se probó en 60 000 horas de datos de habla en inglés. Puede replicar las emociones y el tono de un orador, dijeron los investigadores en un artículo de la Universidad de Cornell.
Estos resultados parecían ser ciertos incluso cuando se creó una grabación de palabras nunca pronunciadas por un hablante nativo.
Vall-E destaca las capacidades de aprendizaje en contexto y puede usarse para sintetizar voz personalizada y de alta calidad. Grabación grabada por solo 3 segundos Desde el altavoz invisible como indicación de voz. Los resultados del experimento muestran que el Vall-E es significativamente superior al último zero-shot [text to speech] sistema en términos de naturalidad del habla y similitud del hablante”, escribieron los autores. Además, encontramos que Vall-E puede mantener afinada la emoción del orador y el entorno acústico de la caja de resonancia. “
SOFTWARE ESPIA ANDROID ATACA DE NUEVO PARA QUITAR INSTITUCIONES FINANCIERAS Y TU DINERO
Muestras de Val-E Compartido en GitHub son inquietantemente similares a las afirmaciones del orador, aunque varían en calidad.
En una de las oraciones compuestas de la base de datos de voces emocionales, Val-E dice con calma la oración: “Tenemos que reducir la cantidad de bolsas de plástico”.
Los personajes de Disney llegan a Amazon Alexa con el comando “Hey Disney”
Sin embargo, la búsqueda en IA de texto a voz Viene con una advertencia.
“Dado que Vall-E puede sintetizar el habla que conserva la identidad del hablante, también podría Posible riesgo de mal uso del formulario, como hacerse pasar por la identificación de una voz o hacerse pasar por un hablante específico”, dicen los investigadores en esta página web. Realizamos los experimentos asumiendo que el usuario acepta ser el hablante objetivo en la síntesis de voz. Cuando el modelo se generaliza a hablantes invisibles en el mundo real, debe incluir un protocolo para garantizar que el hablante dé su consentimiento para el uso de su voz y el modelo de detección de voz sintetizada. “
Haga clic aquí para la aplicación FOX NEWS
Actualmente, Vall-E, que Microsoft llama un “paradigma de lenguaje de marcado neuronal”, no está disponible para el público.
“Reader. Infuriatingly humble travel enthusiast. Extreme food scholar. Writer. Communicator.”