Buenas, buenas, ¿cómo andan? Acá estamos de nuevo con un episodio de Inteligencia Artificial, donde vamos a estar repasando un poco las últimas novedades que estuvieron presentando OpenAI en su evento, y Google en el evento Google I/O, que fue al día siguiente. Y cómo todo esto va a estar afectando e impactando nuestras vidas en el futuro cercano, y por qué no, también pensar un poquito en el futuro un poco más lejano.
Si bien trato de no enfocarme mucho en las noticias que van saliendo para el contenido del podcast, sino más en general sobre la inteligencia artificial, en este caso creo que lo que se presentó fue bastante disruptivo en cierto modo. Creo que implica un cambio importante y por eso me parece interesante comentarlo y tratar estos temas en un episodio. En este caso, Google tenía anunciado su evento Google I/O y OpenAI decidió anunciar un evento para un día antes, donde iban a estar mostrando cosas según sus comentarios en Twitter, por ejemplo de Sam Altman, el CEO de OpenAI. Lo que iban a presentar eran cosas bastante increíbles y hasta que parecían mágicas. Entonces fue la jugada estratégica para adelantarse a Google y tener un impacto mayor, creo yo. Porque después, al día siguiente en el evento de Google, lo que se presentó, entiendo que no llama mucho la atención en el mundo de la tecnología. Y no porque lo que presentaron no sea bueno, sino que, al haberlo presentado después que OpenAI, ya no llamaba tanto la atención.
Pero bueno si les interesa estár al tanto de las noticias, recuerden que se pueden suscribir a mi lista de correos donde una vez a la semana envio un email corto con las novedades mas importantes y algunos pensamientos al respecto. Entran a pochocosta.com y ahi se pueden suscribir y es gratis.
Entonces veamos qué fue lo interesante que presentaron cada uno. Por un lado, OpenAI presentó su nuevo modelo llamado GPT-4 O (la letra O viene de Omni) que es más potente y más rápido que el GPT-4 turbo actual, y que además lo van a estar habilitando en la versión gratuita de chatgpt. O sea que eso es una grandísima noticia, porque no solo están democratizando el acceso a la última y más potente tecnología, sino que además están habilitando nuevas características que antes eran solo de pago.
Como por ejemplo el code interpreter o tambien llamada data analisys que pasará a estar accesible para todo el mundo, y esto es algo que tiene varias utilidades porque permite que chatgpt escriba programas y los ejecute en una maquina virtual a la que tiene acceso.
Esto sirve por ejemplo para que le puedas dar un excel con una tabla de datos y pedirle que haga analisis sobre esos datos, que cuente cantidades, que saque promedios, mínimos, máximos, o que haga gráficas y nos los muestre en pantalla. Por ejemplo podes subirle un excel con una tabla de transacciones de ventas de un periodo de tiempo y decirle que arme un grafico mostrando las ventas mes por mes y lo hace.
Así que eso por ejemplo que es una caracteristica que estaba para los usuarios de la suscripción plus ahora va a estar disponible para todo el mundo. Tambien vas a poder subirle un documento word o pdf y pedirle que te haga un resumen, o subirle una foto o una captura de pantalla y poder hablar sobre esa foto. O sea, podes sacarle una foto a un alfajor de chocolate y pedirle que te diga cual es el valor nutricional o cuantas calorias tiene o pedirle que te de una receta para prepararlo. Cosas de ese estilo.
Despues otra de las caracteristicas que van a estar disponibles para todo el mundo gratis el la capacidad de memoria. Que quiere decir esto, que nosotros podemos decirle a ChatGPT que recuerde ciertas cuestiones y entonces después no vamos a tener que estar repitiéndole estas cuestiones en futuras conversaciones. Por ejemplo “recuerda que tengo 2 hijos” “recuerda que vivo en argentina” y cualquier tipo de cosas que ustedes quieran que recuerden y que tenga en consideración en futuras conversaciones.
Y otra de las capacidades de pago que ahora pasarán a ser gratuitas es la capacidad de que chatgpt tenga acceso a internet. Y eso es super útil porque recordemos que los modelos están entrenados con información hasta una cierta fecha, entonces con esta capacidad de acceder a internet podemos pedirle que busque, investigue o acceda a links específicos para tomar información más actual.
Asi que esa es otra de las capacidades actuales que pasan a ser gratis, y tambien la posibilidad de acceder a la tienda de GPTs personalizados y poder usar esos GPTs. Si no saben lo que son los GPTs personalizados les dejo un enlace en las notas del programa en pochocosta.com a un episodio donde hable de ese tema.
Lo que no queda claro, por lo ambiguo del anuncio es si los usuarios gratis tambien van a poder crearlos o si eso será algo que quede exclusivo para los usuarios de la suscripción plus.
Pero ahora quiero empezar a contarles lo nuevo nuevo, que es lo que solo pudimos ver como lo mostramos pero a lo que todavía no se tiene acceso y que van a estar liberando en las próximas semanas para los usuarios Plus en principio.
Y son 3 cosas las que más me llamaron la atención, por un lado este nuevo modelo omni, tiene capacidades de texto, visión, de audio en tiempo real. Y eso es espectacular por tooodo lo que implica.
Asi que vamos a explica esto.
Básicamente con esta nueva versión vamos a poder tener una conversación de voz, tal como se puede hacer hoy la aplicación móvil de chatgpt pero en tiempo real, o sea que el tiempo de respuesta es mucho más rápido, y además no vamos a tener que esperar a que chatgpt termine de hablar para poder hablarle, que eso hoy es bastante molesto. Sino que podemos interrumpir, y eso lo vuelve mucho más cercano y más real.
Por eso, y por lo que les voy a contar ahora, es por lo que me interesaba hacer un episodio para comentarlo, porque básicamente creo que esto abre una nueva forma de interactuar con los modelos de lenguaje y con la inteligencia artificial, que creo que va a tener un impacto importante.
Lo otro que presentaron es la posibilidad de que a través de la aplicación móvil podamos prender la cámara y además de estar conversando con la voz en tiempo real podamos hacer que “vea” lo que queramos mostrarle con la cámara. Y esa es otra característica que abre muchas posibilidades.
La tercera cosa interesante segun mi punto de vista, es que van a lanzar una aplicación de escritorio donde tendremos a ChatGPT pero además podremos compartirle pantalla para que vea las aplicaciones que estamos usando y podamos interactuar, por texto o por la voz, con el contexto de esas aplicaciones.
Y bueno, si todavía no tienen la boca abierta, vamos a profundizar un poco más en todo eso.
Una de las cosas mas llamativas que mostraron es la velocidad con la que se puede interactuar mediante la voz. Porque si, hoy ya se podía hablar con chatgpt, pero la experiencia no es muy buena, es lenta y anti-natural. Eso pasa porque actualmente cuando usamos esa parte, intervienen 3 modelos en la comunicación. Un modelo que se llama whisper y transcribe lo que nosotros decimos, despues el modelo GPT que lee esa transcripción y genera una respuesta y despues un modelo que pasa la respueta de texto a voz. Esa arquitectura hace que sea lento porque son 3 modelos que hay que orquestar, y que deben procesar una entrada y generar una salida. A esos tiempos que pasan entre que se orquesta todo eso se le llama “latencia”. El gran cambio es que ahora este nuevo GPT-4o es un unico modelo que hace todo eso, y por ese es tan rapido, porque reduce tremendamente la latencia y además trabaja en tiempo real, con lo que no funciona por turnos. En actual GPT-4 la conversación de voz es por turnos, primero habla uno, cuando termina habla el otro. En cambio en el actual, es como que los dos se están escuchando y pudiendo hablar al mismo tiempo, los dos me refiero a nosotros con chatgpt. Y eso es exactamente como funciona el mundo real. Nosotros cuando hablamos con alguien no estamos hablando por turnos, sino que hay interrupciones, ruidos de fondo, incluso multiples voces. Y todo esto es lo que va a traer esta nueva funcion de chat por voz. Realmente es increible lo que mostraron. Pero no solo por eso sino tambien por la entonación que tiene la voz que lo hace mucho mas real y natural que la voz de chatgpt, sino tambien porque además puede analizar la voz con la que le estamos hablando y hacer analisis de sentimiento de conversaciones, incluso con multiples voces!
Esto de las multiples voces es muy interesante, justamente en el episodio pasado que hable de transcripciones de reuniones con IA, les mencioné varias herramientas pero ninguna resuelve eso de identificar y separar las voces.
Bueno, esa es otra de las cosas que si se van a poder hacer con el nuevo GPT-4o. De hecho está en su sitio web una demostración donde le dan un audio de una reunión y no solo transcribe, sino que da la transcripción separada de lo que dijo cada persona.
Si bien los usuarios plus ya tenemos el modelo GPT-4o habilitado, de momento no tiene el nuevo chat de voz, ni tampoco puede hacer esto de la transcripción adjuntando un archivo de audio porque ya lo estuve probando y no funciona.
Bien, sigamos con las nuevas capacidades que se vienen. Otra de las cosas que mostraron en el evento es la capacidad de estar en un chat de voz con chatGPT y abrir la cámara del telefono para mostrarle algo en vivo y que pueda contextualizar la conversación. Por ejemplo, ellos mostraron cómo los ayudaba a resolver un problema de ecuaciones matemáticas con lápiz y papel, ayudándoles a resolver el problema pero sin darles la respuesta directamente, sino tratando de hacer razonar a la persona y dandole algunas pistas. Esto es realmente increíble y futurista. Es de los mas cercano que de chico veía en películas o dibujos animados pero en la vida real.
Y otra demo que subieron a internet es una donde hay un persona que habla en ingles y otra que habla en español, y le piden a ChatGPT que cada vez que uno hable lo traduzca, para que los dos se puedan entender. Otra cosa espectacular, que va a tener un impacto tremendo en el mundo.
Cada una de estas cosas, a medida que se vayan adoptando masivamente van a tener un impacto tremendo. Imaginen la gente que está haciendo turismo por cualquier parte, pudiendo poder sacar su teléfono, mostrarle un lugar o un monumento y que pueda hacer de guia y explicarte cosas, incluso que tengas que comunicarte con alguien de ese pais y le puedas pedir a chatgpt que te haga de traductor en tiempo real. No pensemos solo en el turismo, pensemos en gente ciega por ejemplo. Son utilidades que van a tener un exito tremendo. Y que realmente van a tener un impacto enorme. Porque siendo gratis, va a ser mucho mas facil que la gente lo empiece a adoptar, la barrera economica que siempre fue algo que limito este tipo de progreso, con esto deja de estar. Entonces cuando les digo que la aceleración del cambio que está trayendo y que va a traer la inteligencia artificial, va a hacer que todo cambie mucho mas rapido, por este tipo de cosas es que la digo. O sea, estamos a un año y medio desde que apareció chatgpt y tan solo en 18 meses ya tenemos esta nueva versión que trae todo eso y que hace todavia mas facil y accesible poder usarla. Porque ahora encima lo usas con la voz y de manera mucho mas natural. Procesa video en tiempo, analiza emociones, además otra cosa que no mencioné es que puede generar sonidos.
En una de las demos que están en la web, le piden que cree un sonido de monedas cayendo sobre un metal y lo hace, perfecto.
Asi que vayamos poniendo nuestra mente en sintonia porque todo esto en teoria ya va a estar disponible en las proximas semanas.
Entonces ahora vayamos a lo que presentó Google al día siguiente, que como les decía, despues de haber visto todo esto el día antes, parece mucho muchos espectacular, pero bueno son cosas interesantes tambien.
En el caso de Google el evento duró mas de 3 horas, y el de OpenAI fueron 25 minutos. Pero bueno voy a tratar de centrarme solamente en lo que a mi mas me llamó la atención.
Lo primero es que ahora Gemini que es la inteligencia artificial de Google, va a estar disponible en todos sus productos, por ejemplo en Gmail y vamos a poder pedirle que nos haga resumenes de emails. Eso está genial la verdad. Yo lo estuve probando y de momento, dentro de Gmail no me aparece, pero si desde el sitio de Gemini le pregunto algo sobre mis emails, se conecta y me responde. Lo malo de momento es que solo me función si le pregunto en Ingles. Si le pregunto en castellano me decia que solo era un modelo de lenguaje y que no podia acceder a otras aplicaciones, lo cual es falso jaja pero bueno alucinó el pobre.
Tambien dijeron que iba a estar disponible con la grabación de las reuniones para poder hacer cosas como las que hablé en el episodio pasado, de transcribirlas y que podamos pedirle que haga resumen y extraiga información.
Despues en otro lugar donde vamos a tener integrado Gemini es en Google Fotos, donde vamos a poder pedir por ejemplo que te muestre fotos de como fue progresando tu hijo en natación y te busque las principales fotos de tu hijo nadando ordenadas en el tiempo. Que bueno vamos viendo la variedad de cosas que empiezan a surgir cuando tenemos IA por todos lados.
Otra cosa interesante que es que este nuevo Gemini 1.5 Pro ahora va a tener una ventana de contexto de 2 millones de tokens. Eso es algo impresionante. Lo extendieron de 1 millón a 2 millones y es una barbaridad comparado contra las ventanas de contexto que manejan los modelos de sus competidores. La ventana de contexto es la cantidad de texto que le podemos dar para que trabaje. O sea le podemos subir 15 libros a la vez y puede manejar esa cantidad de texto.
Como ven, son cosas bastante impresionantes, pero bueno al llegar más tarde no llamaron tanto la atención. Pero como Google tiene una Suite con grande de productos, meter IA por todos lados, hace que se vaya integrando la experiencia y esté realmente muy bueno.
Por ejemplo al usar Gemini, tenes integración con Google Flights lo que quiere decir que te puede ayudar a organizar un viaje y encontrar vuelos, fechas, horarios precios. Incluyo buscar alojamientos.
Otro tema que mencionaron, es que van a lanzar una herramienta de agentes inteligentes, que nos van a ayudar con tareas mas complejas, si no saben lo que son los agentes, pueden escuchar un episodio donde hable de este tema hace como un año, y el episodio se llama “AutoGPT y el futuro de la automatización de tareas”.
Despues hablaron sobre algo que llaman proyecto Astra que se trata de algo similar a la capacidad que presentó OpenAI para que el modelo pueda hablar y ver con la camara del telefono.
Si se dan cuenta, una gran diferencia en como cada una de las empresas presentó las cosas es que OpenAI lo mostró como “Ahora ChatGPT va a poder hacer todas estas cosas” en cambio Google lo mostró como todos proyectos separados que hacen cosas por separado entonces claro, le baja mucho el impacto a lo que muestran me parece. Una cuestión de Marketing digamos.
Y después para cerrar con las cosas que presentó Google que me parecen interesantes de contar, está la integración de IA generativa en el Buscador, o sea que ahora al buscar vas a tener un texto generado por IA intentando responder a la búsqueda por sobre los links de los resultados de búsqueda.
Y por otro lado un modelo de generación de video a partir de texto que genera videos de alta resolución. Se llama Veo y sería la competencia de Sora que es el modelo de video de OpenAI.
Y bueno, está quedando un poco largo este episodio, pero tambien quiero aprovechar para contarles sobre algo interesante y es algo que se lanzó en estos últimos días y que no quiero dejar pasar fue un lanzamiento de parte de Anthropic, los creadores de Claude, que salieron con algo muy útil y muy interesante que es un generador/optimizador de prompts. Como comenté varias veces, de momento la mejor forma de conseguir resultados con la inteligencia artificial generativa es mediante técnicas de prompting, o sea escribir las instrucciones que les damos a los modelos de una forma que genere mejores resultados. Eso por ejemplo lo hablamos especialmente en el episodio donde hablé de cómo escribir buenos prompts. Hay distintas técnicas para escribir prompts que están probadas científicamente digamos y que producen mejores resultados.
Bueno la gente de Antropic lanzó un módulo dentro de su plataforma que sirve para generar prompts optimizados con estas técnicas y es muy muy fácil de usar.
Básicamente tenes que ir a console.anthropic.com le das al botoncito que dice generar prompt y escribir la descripción de la tarea que queres hacer con el modelo de lenguaje y darle al botón generar prompt. Y lo que va a hacer es generar un prompt super completo, aplicando las técnicas más efectivas como la cadena de pensamiento por ejemplo, en base a esa descripción que vos le pusiste.
Yo lo estuve probando y me encantó realmente como funciona así que no quería dejarlo pasar y recomendarles que lo usen.
De hecho no se si se acuerdan pero cuando salió ChatGPT Plus con los GPTs personalizados yo había creado un GPT que optimiza prompts y me parecía raro que no salga alguna herramienta de ese estilo ya que los prompts son texto y los modelos de lenguaje se especializan en generar texto, entonces era raro que tengamos que tener una nueva profesión que se llame ingeniería de prompts cuando lo que necesitamos generar es texto.
Asi que bueno, intuyo que pronto habrá mas y mejores herramientas de este estilo, pero de momento la que les recomendo es esta de Antropic.
Todas estas son cosas que ahorran muchisimo tiempo. Por ende cada vez deberiamos ser más productivos, y hacer cosas mucho más rápido que lo que las haciamos antes.
Me intriga mucho que impacto va a tener esto de la productividad en nuestras vidas.
Y bueno con eso llegamos al final de este episodio. Espero que les haya gustado. Y de ser así que lo compartan con alguien a quien crean que les pueda gustar. Y si pueden que me regalen 5 estrellitas en Spotify o un me gusta en donde sea que lo estén escuchando ya que eso ayuda a que más personas lo puedan descubrir.
Y ahora si, nos escuchamos en el próximo episodio donde seguiremos hablando de este hermoso mundo de la inteligencia artificial.