27 | POCHO COSTA

Holaaa! como andan? Acá estamos nuevamente, después de una semana con dos días feriados no laborables acá en Argentina, los cuales hicieron muy difícil poder sacar el episodio a tiempo. Así que les pido disculpas pero entre los dos días con toda la familia en casa y todo el trabajo que tuve los otros 3 días, me fué imposible grabar el podcast!

Pero bueno basta de excusas! Ya estamos en la semana número 26 de este año 2019, lo cual indica que estamos en la mitad exacta del año, así que es un buen momento para repasar los objetivos que nos propusimos y rectificar lo que haga falta…

Hoy en el podcast no hay un tema principal como suele haberlo, sino que voy a comentarles sobre algunas noticias del sector que salieron en los últimos días. La primer noticia es sobre el proyecto GauGan de Nvidia, la compañía especializada en procesadores gráficos, y un proyecto para crear imágenes realistas a partir de un boceto, la segunda es sobre un DeepFake a Mark Zuckerberg que fue publicado en Instagram, el tercer tema es sobre el modelo de generación de audio llamado MelNet y por último una herramienta para probar modelos de machine learning en el navegador de tu computadora aunque no sepas programar.

Espero que les guste y si es así que se suscriban al podcast en Spotify, iVoox o la aplicación de podcast que mas les guste.

Ahora sí, vamos con los temas:

Nvidia publicó la demo de su GauGAN

La primer noticia es que Nvidia liberó una demo online para probar su proyecto llamado GauGan que sirve para crear imágenes realistas a partir de un boceto. De este proyecto estuvo dando vuelta por las redes sociales hace unas semanas el video con el que Nvidia lo mostró, así que muchos seguramente saben de lo que les hablo.

Pero por si acaso les cuento que se trata de una especie de “Paint con esteroides”, donde tenes una superficie sobre la cual tanto con un pincel, como con el famoso “tarrito de pintura” que tienen estas aplicaciones de edición de imágenes, podes aplicar árboles, cielo, montañas, nubes, rocas, montones de cosas digamos y hacer que a partir de ese boceto en segundos se convierta en una imagen realista.

Este proyecto viene de un paper que se llama “Semantic Image Synthesis with Spatially-Adaptive Normalization” y es un proyectazo para dedicarle por lo menos un rato jugando y viendo las cosas que se pueden hacer.

Les dejo en las notas el link a la demo como también a un video de Youtube donde se muestra como funciona.

DeepFake de Mark Zuckerberg en Instagram

Ahora vamos al segundo tema que es el DeedFake a Mark Zuckerberg, el creador de Facebook. Este es un video que se publicó en Instagram donde lo que hicieron fue un “video dialog replacement” o sea, agarraron un video de Mark Zuckerberg y cambiaron lo que dice pero con una tecnología que sincroniza los labios perfectamente.

https://www.instagram.com/p/ByaVigGFP2U

Este video sigue estando, por lo menos hasta el momento en que estoy grabando esto, asi que lo pueden ver, les dejo el link. El video fue usado como parte de una campaña de marketing de lanzamiento de una muestra de arte y tecnología.

En esa misma campaña se usó también un deepfake de Donald Trump por ejemplo, la verdad que estan muy buenos como para ver el mundo de posibilidades que se abre con esto…

La empresa que los hizo vende sus servicios para hacer estos videos y que puedan ser usados para por ejemplo que una misma publicidad se pueda hacer en muchísimos idiomas.

Imaginense en ahorro de costos que esto significa! En vez de tener que estar armando un set de grabación y grabando cada toma en diferentes idiomas, se graba una sola vez y después se hace el reemplazo del diálogo con sincronización del movimiento de los labios en todos los idiomas que se quiera.

O mismo un reemplazo en video para las típicas fotos de un famoso sosteniendo un cartel en blanco con las manos al que luego le van poniendo diferentes frases, se podría hacer esto mismo para que a partir de un video cualquiera, poner el diálogo con el mensaje y re utilizarlo hasta el infinito.

Puede ser magnífico o diabolico depende el uso que se le dé pero bueno, más allá de eso me parece un logro haber llegado a este punto. Y no me refiero a esta empresa específicamente, sino en general.

Esto de los deepfakes ya viene hace tiempo y hay publicados muchos papers y proyectos, aunque esta es la primera vez que creo que lo menciono en el podcast.

Generación de audio de alta calidad con MelNet

Bueno, vamos con el tercer tema. El modelo de generación de audio MelNet, que es un modelo presentado hace unos días por dos investigadores del equipo de IA de Facebook.

Este proyecto se trata de un nuevo enfoque en los modelos de generación de audio que difiere de por ejemplo el famoso WaveNet presentado por DeepMind en el 2016 y que es el que se usa en el asistente de Google.

La diferencia es que este fue entrenado usando una representación de sonidos con espectrogramas en vez de usar los diagramas de forma de onda. Les dejo en las notas un gráfico de cada uno para que vean como son.

La cuestión es que el espectrograma tiene mas detalle de lo que representa, haciendo que esto se traduzca en más calidad en los audios, y por eso es que lograron por ejemplo generar voces de algunos famosos, como por ejemplo Bill Gates.

En la web del proyecto pusieron varios ejemplos de los audios que generaron y lo que puede hacer este modelo es generación de voces, generación de musica y pasar un texto a audio.

Les dejo el link a la web del proyecto donde están todas las muestras de audio generado para que las escuchen.

Plataforma de pruebas de ML en tu navegador

Y bueno por ultimo les dejo una web para poder jugar y probar algunos modelos pre entrenados directamente desde el navegador, en especial para los que no son programadores y quieren jugar y experimentar un poco, la web tiene varios modelos para probar y lo bueno es que no tienen que instalar nada. Se llama StackML.com

Se que hay otros proyectos con modelos pre entrenados que pueden estar un poco mejor pero lo bueno de este es que no tienen que instalar nada y lo prueban directo desde el navegador.

Y gracias también a todos los que se siguen suscribiendo que sé que todas las semanas se suman nuevo oyentes, a ver si alguno de los nuevos se anima a escribirme así los conozco y me dicen que les interesaría escuchar. Y también gracias a los que dejan sus me gusta y comentarios en iVoox o las valoraciones de 5 estrellas en iTunes que son lo que ayuda a que este podcast pueda ser descubierto por más personas.

Comentarios

4 respuestas a «27»

Sih DeRall
27/06/2019
Hola, me gustaría que pudieras dedicar alguna publicación para hablar sobre RPA. me encanta tu canal, saludos.
1. Pocho Costa
  27/06/2019
  Tomo nota. Gracias por comentar!
Nodenuevo
26/06/2019
Hola, este es el primer podcast que escucho y quería consultarte cuáles son las otras direcciones web que están mejor que stackml.com. Estoy intentando aprender Python para desarrollar ML y me cuesta un montón. Espero que estas webs sean un atajo interesante. Gracias
1. Pocho Costa
  27/06/2019
  Un proyecto que me encanta es RunWayML. Saludos y gracias por dejar tu comentario!