La inteligencia artificial que imita voces con muestras de apenas 3 segundos

El ingenio fue creado por Microsoft, que usó una tecnología desarrollada por Meta.

Investigadores de la empresa Microsoft dieron a conocer un sistema de inteligencia artificial (IA) capaz de imitar voces con un alto grado de realismo. La tecnología que presentaron, denominada VALL-E, consigue sus resultados con muestras de sólo 3 segundos de duración.

VALL-E: cómo funciona la inteligencia artificial que imita voces

En los últimos años hemos sido testigos del exponencial crecimiento de los sistemas de IA, que día a día consiguen más habilidades. Desde falsificaciones profundas de imágenes y videos, hasta la generación de textos en forma automática. ChatGPT, un avance creado por OpenAI, ha ocupado el centro de la escena durante las últimas semanas por sus asombrosas capacidades.

El campo de acción de VALL-E se acota a las voces. Tal como señalamos, su virtud es imitar tonos de voz partiendo de datos de entrada que no necesariamente deben ser extensos.

Siguiendo el repaso de Gizmodo, Microsoft se basó en EnCodec, una tecnología de compresión de audio de Meta que usa IA para operar con sonidos con mejor calidad que un CD, sin pérdidas de calidad. Mientras que la exFacebook ideó ese método para mejorar la calidad de las llamadas telefónicas y para achicar la demanda en los servicios de streaming de música; la tecnología tuvo una reinterpretación en VALL-E.

¿La clave? Con poquísimos datos, captar la esencia de una voz y entonces imitarla.

¿Qué avances propone VALL-E de Microsoft?

Los sistemas para producir voces digitales disponibles en la actualidad consiguen resultados muy realistas y naturales. Los asistentes virtuales (Apple Siri, Amazon Alexa, Google Assistant, etcétera) son muestras fieles de ello. Sin embargo, la excelencia alcanzada requiere muchos datos y de alta calidad, que habitualmente se graban con equipos profesionales.

Amén de la curiosidad que genera que una IA que imita voces rápidamente; el carácter distintivo de VALL-E es que su entrenamiento no requiere mucha información, tampoco que ésta sea de gran calidad. Tal como señala la fuente, “es capaz de simular la voz de casi cualquier persona sin pasar semanas en un estudio de grabación”.

La herramienta se fue entrenada con datos de dominio público, compuestos por 60.000 horas de habla en inglés, tomados de más de 7.000 personas.