Clonación de voz usando Inteligencia Artificial

Buenas Buenas! ¿cómo va todo? Acá estamos de vuelta con otro episodio del podcast Inteligencia Artificial y quería empezar agradeciendo a todas las personas que me vienen contactando por el formulario de la web, a los que me escriben por instagram y también a los que están dejando comentarios en Spotify! La verdad que no sabia que existía eso y el otro día me encontré con muchísimos comentarios ahí, que por lo que entiendo Spotify les pide que digan qué les pareció el episodio así que buenísimo y también ví que hay posibilidad de enviar encuestas y otro tipos de interacciones así que voy a estar pensando qué utilidad le podemos dar para hacer esto más interactivo.

Y bueno pasando ya al contenido del podcast hoy quería traer para hablar sobre la clonación de voz, que es un tema que la otra vez lo estuve hablando con un amigo que me preguntó por el tema y pensé que podía ser interesante comentarlo acá también.

Así que empecemos.

La clonación de voz está dentro del machine learning o aprendizaje automático y a su vez dentro del deep learning o aprendizaje profundo, que son temas que ya los hablamos en episodios pasados pero sí descubrieron el podcast hace poco les dejo los links en las notas para que vayan a esos episodios específicos por si quieren ahondar más, pero esto básicamente quiere decir que vamos a usar redes neuronales artificiales para darle ejemplos, muestras, de la voz que queremos clonar, para que analice estos datos de la voz y encuentre los patrones, esas características que hacen a esa voz y después podamos usar eso para replicar esa voz de una manera increíblemente precisa.

Con esa introducción me gustaría que definamos que es en sí la clonación de voz y en qué consiste.

Entonces ¿que es exactamente? Bueno, en términos simples, la clonación de voz es un proceso que usa la tecnología de inteligencia artificial para crear una réplica digital de la voz de una persona. Imagínate poder tener una copia digital de tu voz que puede decir cualquier cosa que quieras, incluso si tú no lo has dicho. Eso es básicamente lo que es la clonación de voz.

Este proceso implica el análisis y la copia de las características únicas y distintivas de la voz de una persona. Estamos hablando del tono, el ritmo, la pronunciación, y otros aspectos que hacen que tu voz sea única. Y la idea es crear una copia digital tan precisa que sea casi indistinguible de la voz original.

Nada mas y nada menos que eso.

Entonces ahora pasemos a cómo se logra eso. Bueno, es un proceso de dos pasos. Primero, se recopilan y analizan muestras de voz de la persona cuya voz se va a clonar. Estas muestras se utilizan para entrenar un modelo de inteligencia artificial que aprende a imitar la voz. En segundo lugar, una vez que el modelo ha sido entrenado, puede generar nuevas palabras y frases que suenan como si hubieran sido habladas por la persona original, incluso si esas palabras o frases no estaban presentes en las muestras de voz originales.

Por ejemplo esto que van a escuchar ahora son voces clonadas:

[VOCES CLONADAS]

¿y? ¿que les parece? imagino que ya se van dando cuenta los usos que puede tener…

Bueno, la clonación de voz es algo relativamente nuevo pero ya se le está dando bastante uso, así que sigamos avanzando así vemos cuáles son los usos que se le están dando, qué desafíos plantea, y que cosas hay que considerar…

Así que sigamos.

En cuanto a tecnologías que pueden encontrar para generar audio con voces clonadas o sintéticas pueden ser tanto productos que están disponibles en internet como por ejemplo el sitio de Synthesia, Descript, Play Ht, stepes, hay muchisimos. Si buscan van a encontrar un montón.

Y sino pueden encontrar en Github repositorios de código para hacerlo por su cuenta como Dif Svc o muchos otros modelos. Solamente buscando Voice cloning en Github les van a aparecer un montón de repositorios.

Asi que nada, esas son algunas de las tecnologías. Cada una tiene sus puntos fuertes y sus debilidades, y si les interesa las pueden probar y después me cuentan cómo les fue.

Pero sigamos avanzando porque hoy hay mucho para decir y no quiero que el episodio quede demasiado largo.

Veamos

¿COMO FUNCIONA LA CLONACION DE VOZ?

El primer paso es juntar muestras de la voz que se quiere clonar. Esto podría ser grabando la voz o usando grabaciones existentes. Y como siempre con todo esto, cuanto más datos tengamos y cuanto mayor sea la calidad del audio ¡mejor!

Después de tener las muestras está bueno procesar esos audios primero para eliminar ruidos y distorsiones, que queden lo más limpio posible y segundo para fraccionarlos en partecitas de pocos segundos para que sea más fácil trabajarlos.

Y ahora viene un proceso de dos partes donde empieza a trabajar la inteligencia artificial para extraer las características que hacen a esa voz única, como el tono, el ritmo, la pronunciación y se entrena un modelo que aprenda a imitar la voz basándose en esas características.

Una vez que tenemos el modelo entrenado es cuando se puede empezar a generar audios que suenen con la voz clonada, y esto se puede hacer principalmente de dos maneras: una es pasando de texto a voz (esto se llama text to speech) y la otra forma es transformar una voz en otra sin cambiar el contenido de lo que dice, y esto se llama re-sintesis de voz.

Y por último, nos quedaría analizar los resultados y mejorar el modelo, recuerden que siempre se trabaja con procesos iterativos, entonces escuchamos los resultados y en base a eso podemos decidir conseguir más muestras de la voz original o tal vez ajustar los hiper parámetros del modelo y volver a correr el entrenamiento y repetimos todos los pasos que dijimos antes hasta que ya estemos conformes con los resultados.

Así que ahí vimos como funciona, ahora pasemos a ver los usos y aplicaciones que le podemos dar a esto de la voz clonada.

Bueno lo primero que me viene a la mente son los podcasts o todo lo que sea relacionado con la narración como los audiolibros o la lectura de noticias, esto por ejemplo en plataformas de blog como Medium ya está aplicado y se pueden escuchar los posteos en vez de tener que leerlos.

Otra aplicación podría ser en los asistentes de voz que tenemos en los teléfonos o en los parlantes de nuestras casas, donde podamos elegirles una voz que puede ser de nuestro personaje favorito de cine, de Messi, de Pappo, de lo que quieras! Ya me estoy imaginando a Siri hablando con la voz de Pappo y me vuelvo loco!

Bueno otro posible uso es en la industria del cine para usar las voces reales de los personajes pero en distintos idiomas. O incluso mezclando esto con la generación de videos poder recrear la voz de algún personaje que ya no está disponible. Esto mismo también para el mundo de la música! 

Esto lo dejo ahí porque después voy a contar un caso específico de aplicación al mundo de la música.

Pero imaginate que por alguna enfermedad perdes la voz y se puede recrear tu voz con grabaciones para hacerte una “prótesis de voz” que suene con tu voz real. ¡Es espectacular!

Después puede usarse también en videojuegos o realidad virtual para hacer avatares u hologramas con voces clonadas.

Pensemos también en el mundo de la publicidad o el marketing, donde una celebridad puede vender los derechos de uso de su voz a una marca y que esa marca pueda usar esa voz en publicidades sin tener que ir a un estudio en persona y grabar el mensaje. Sin tener que repetir las tomas por errores y pudiendo sacar un mensaje en formato de audio en cualquier lugar, en cualquier momento, en cualquier horario, en cualquier idioma, lo que quieras! ¡Es espectacular!

Otro posible uso podria ser el recuerdo o el legado digital de una persona como para preservar su voz aún cuando esa persona ya no esté, y así poder emitir mensajes con la voz de esa persona.

Bueno como siempre, usos puede haber casi tantos como la imaginación nos lo permita.

Asi que como vimos, los usos pueden ser bastante beneficiosos por ejemplo para la personalización del uso de la tecnología, que hagan que la interacción sea más placentera para el usuario por ejemplo, o motivacional…Imaginense una charla de fútbol para un equipo infantil con la voz de Messi, ¿que mejor manera de presten atención y les llegue el mensaje? De la mano de esto podríamos usar esto mismo en educación, tanto para generar contenido educativo con voces específicas como también poder usar esas voces en cualquier idioma. Mismo para las biografias que puedan ser pasadas a audiolibro con la voz de la persona.

También hablamos del beneficio para el caso de que pierdas la voz y puedas usar tu voz clonada para seguir comunicándote. Esto tiene un impacto directo en la calidad de vida, y también hablamos del beneficio para la industria del entretenimiento con la clonación de voces para series y películas y también de cantantes.

Como vemos hay muchísimos beneficios de usar la clonación de voz pero tambien está bueno que hablemos un poco de los peligros que esto puede traer.

Tenemos que pensar que uno de los casos peligrosos es la suplantación de la identidad, o sea que clonen nuestra voz y se quieran hacer pasar por nosotros y por ejemplo hacer una estafa telefónica. Y por eso es que ya se está hablando de tener precauciones con nuestras familias y definir un segundo factor de autenticación o contraseña para que por ejemplo mi mamá o mi papá puedan asegurarse de que realmente soy yo el que los está llamando y pidiendoles dinero. 

Bueno de este tema particular ya hubo casos de estafas con estas técnicas así que hay que estar atentos para no caer.

Después otro de los peligros es la desinformación…sumas los deekfakes de video con la clonación de voz y podes tener una grabación falsa de cualquier figura pública diciendo lo que se te antoje. De esto ya hubo casos con Vladimir Putin el presidente de Rusia, con el de China, con Obama y seguramente muchos más, y va a seguir habiendo, así que también acá a tener el pensamiento crítico, chequear, prestar atención a los detalles, a encontrar el fallo, por que hoy ya no se puede creer en todo lo que vemos o escuchamos. Es así. Fijense el otro día que cayó toda la bolsa de Estados Unidos por una foto falsa de una explosión en el Pentágono. O sea si un montón de inversores de la bolsa creen en una noticia falsa de internet y cae la bolsa, pensemos como cualquier familiar nuestro puede creer una llamada falsa con nuestra voz. Por eso lo que les decía de tomar recaudos!

Y bueno, siguiendo en el tema aparece la cuestión de la privacidad, porque si alguien puede agarrar grabaciones tuyas y clonar tu voz, encima la usa para decir cosas con las que no estás de acuerdo o no compartis ¿que pasa con eso? ¿cuales son las implicaciones legales?

Son temas para pensar, no sé realmente qué tan avanzada está la regulación en cuanto a este tema. Pero tanto el buen uso como el mal uso van a estar ahí, así que seguramente la regulación también va a tener que estar.

Pero bueno si bien yo soy muy positivo y estoy a favor de los usos de la inteligencia artificial no quería dejar de tocar este aspecto también para concientizar sobre los potenciales riesgos del uso de la tecnología.

Y como les habia dicho antes, hoy quería traer un caso de estudio de clonación de voz en el mundo de la música y es específicamente el de una persona que clonó la voz del cantante argentino Charly García era joven y usó esa voz para hacer versiones de canciones del cantante Fito Paez.

Esto lo pueden encontrar en la cuenta de petacas posting, que les dejo el link, y con quien tuve el placer de conversar y por eso quiero agradecerle por la buena onda y por dejarme compartir eso que hablamos acá en el podcast.

Lo primero que le pregunté fue ¿Por qué decidió emprender este proyecto? y la respuesta fue simple: por amor y admiración a la música de Charly García. Y es que se dio cuenta de que muchas personas no apreciaban los temas más actuales de Charly por los cambios en su voz a lo largo de los años. Entonces, pensó que recrear canciones con «la voz del joven Charly» podría abrir la mente de la gente y ayudarles a apreciar sus obras más recientes.

Después le pregunté cómo fue que llegó a todo esto, y me contó que tocaba el piano de oído y en los últimos años se empezó a meter en la producción musical y la edición de audio digital, en paralelo también siempre le gustó la informática y se empezó a meter con todo lo relacionado a la inteligencia artificial relacionada con el audio y la voz humana.

Después le pregunté cómo fue el proceso para clonar la voz de Charly y me contó que fue muy difícil porque había poco material disponible y de buena calidad para usar con la voz de charly garcía de joven que sea limpia, porque son audios antiguos y que podían estar degradados. Así que en principio como tenía muy pocos audios con la voz clara y limpia pensaba que era muy difícil que el proyecto sea exitoso, tenía más chances de fallar que de salir bien.

Y el proceso le llevó también mucha investigación para encontrar las fuentes de audios, horas de escuchar uno por uno, elegir las partes que iba a usar, después recortar eso en fragmentos, y cómo usó algunos audios que tenían un piano también tuvo que aislar la voz del piano y recién después de todo eso pasar a la fase de entrenamiento.

Después bueno técnicamente se basó en herramientas Open Source de Github como RVC y capacidad de cómputo de GPU alquilada en una nube.

Y bueno el resultado son esas canciones que circularon por todo internet con una reaccion super positiva de los fans y de la prensa tambien, así que nada genial lo que logró Petacas Posting poniendole dedicación y tambien su talento al servicio.

En cuanto a planes futuros le pregunté tambien, y me contó que va a seguir haciendo canciones de charly y que tambien piensa clonar otras voces de artisticas iconicos como la de Spinetta o Gustavo Cerati, o hacer colaboraciones entre varias voces, ahi ver a donde va la imaginación, obviamente encarado desde el respeto y la admiración a estos artistas, y tambien recibir feedback de la comunidad.

Por ultimo le pregunté si habia algo mas que quiera decirle a quienes escuchen el podcast y me dijo lo siguiente:

Que disfruten de esto. No tengan miedo que esto no va a sustituir al arte, expresividad, ni sentimiento humano. Si la IA alguna vez te hizo sentir algo, significa que fue gracias al trabajo humano que hubo detrás. Es solo una herramienta más, un filtro que nos permite expendir nuestra humanidad a nuevas formas. Se pueden hacer grandes cosas si la proporción entre humano y máquina es la adecuada.

Asi que muy lindas palabras para cerrar este ultimo segmento. Gracias Petacas Posting!

Y bueno hasta acá llegamos con el episodio de hoy, espero que les haya gustado, les voy a dejar una encuesta en Spotify para preguntarles con que frecuencia les gustaría que salga el podcast y vemos si podemos acercarnos a lo que pidan. Como siempre les pido si pueden dejar una reseña de 5 estrellas en Spotify, Apple podcast o la plataforma de podcast que usen para ayudar a que el podcast llegue a mas personas.

Y bueno, nos seguimos escuchando en el próximo episodio donde seguiremos hablando de este hermoso mundo de la inteligencia artificial.

Dejar recomendación en iTunes

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *