Mejores caso de uso con GPT-4 vision

Buenas buenas! ¿cómo andan? ¡Espero que muy bien! Hoy voy a hacer un episodio hablando de modelos de lenguaje que tienen capacidades de visión, como GPT-4 vision o Llava.

Y específicamente lo que voy a comentar son algunos de los casos para los que podemos usar este tipo de modelos en primer lugar porque puede que les sirvan estos casos, pero principalmente para que les sirvan de inspiración y les traiga ideas de como lo podrían usar ustedes en sus proyectos o negocios. 

Hace un tiempo hice un episodio hablando de convertir artículos a podcast usando inteligencia artificial y un oyente me escribió tiempo después que ese podcast lo había inspirado para una nueva funcionalidad en la aplicación que estaba desarrollando y que la había implementado. 

Así que si este episodio les sirve de inspiración envienme sus ideas por el formulario de contacto de mi web en pochocosta.com o si quieren dejenlas en los comentarios de Spotify.

Y bueno, empecemos. Estos modelos multimodales combinan la capacidad de los modelos de lenguaje con capacidades de visión por computadora.O sea que además de hablarles les podemos dar imágenes o fotos y el modelo va a tener la capacidad de analizarla y hablar sobre lo que hay en la imagen.

Entonces uno de los casos que primero circuló por internet cuando se lanzó esta funcionalidad fue el de darle una foto de lo que hay adentro de la heladera y pedirle que te diga comidas que se puedan hacer con esos ingredientes.

Y otro caso de esos más conocidos era el de darle la imagen de un diseño de una web y decirle que te genere el código, cosa que yo lo usé y realmente funciona muy bien y ahora muchísimo trabajo. De hecho ahora que recuerdo, hice un video que subí a mis redes mostrando uno donde le doy una captura de un diseño y le pido a ChatGPT que genere el código. Eso lo hice para la parte gráfica nada más, pero se podría pedirle que haga el código para la lógica de la aplicación también.

Y después puse otro donde usé una app que es una especie de Paint donde podes dibujar el esquema de una web, poner comentario y te lo genera. Les voy a dejar esos link en las notas en pochocosta.com para que los vean.

https://www.linkedin.com/feed/update/urn:li:activity:7138559886606458880/?originTrackingId=Wl1uglqhR7WHx6bICK84Ew%3D%3D

Pero bueno, esos son los casos más famosos digamos. Pero ahora quería hacer un episodio donde concentrar varios casos como para que sirva de referencia ya que creo que esto de la visión multimodal no se está usando mucho todavía pero tiene muchísimo potencial y estoy seguro que de acá a un tiempo vamos a verlo aplicado por todos lados.

Asi que pasemos al primer caso que quiero cubrir y es el de reconocimiento de objetos en una imagen. Hoy nosotros podemos ir por la calle o estar en un parque y sacarle una foto a un árbol o una planta que nos gusta, y uno de estos modelos nos puede decir que árbol o que planta es. Y esto es increíble!

Yo por ejemplo, tenía una aplicación en mi teléfono para eso hace unos años. Tenía otra que era para identificar tipos de arañas y saber si eran peligrosas o no.

Y antes hacer ese tipo de aplicaciones era un trabajo infernal. Me acuerdo hace 4 años, cuando hicimos la aplicación Come Más Plantas con la cocinera Narda Lepes, que creo que hice un episodio hablando de eso en algún momento. Hacer esa aplicación implicó tener que entrenar un modelo de computer vision que pueda identificar más de 100 tipos de vegetales, frutas, verduras, hierbas. Y para eso tuvimos que conseguir miles de fotos de todo lo que queríamos que la aplicación pueda identificar, etiquetar las fotos, entrenar el modelo. 

Encima me acuerdo que justo nos agarró la pandemia o sea que no se podía salir de las casas. Tenía que conseguir fotos de Eneldo, Kale, cosas que no había visto en mi vida. Buscaba en internet fotos de Eneldo y había 2.

Bueno, todo ese trabajo, ahora, en muchos muchos casos,  ya no hace falta hacerlo. 

Ahora si yo estoy en otro país y veo una fruta que no conozco, le puedo sacar una foto y decirle a un modelo que me diga que fruta es y listo. O incluso hacer una aplicación que se especialice en dar información de frutas a partir de una foto, ahora es mucho más fácil porque gran parte del trabajo se resuelve con una API con uno de estos modelos multimodales.

Asi que esto del reconocimiento de objetos es el primer caso. Ahora pasemos al segundo caso que es la lectura de texto a partir de imágenes.

Este caso es muy interesante porque poder automatizar la lectura de texto es algo que ahorra mucho tiempo y además puede agregar mucho valor. Les voy a contar un par de casos que viví en carne propia.

Hace un tiempo estuve ayudando a una startup a desarrollar un producto que extraiga información de fotos de documentos escaneados. Y para hacer eso primero hacíamos un OCR (que es la sigla de reconocimiento óptico de caracteres) y despues ya teniendo el texto digitalizado podiamos extraer la información que se necesitaba para cargarla en el sistema.

Este caso es buenisimo porque para los usuarios leer documento por documento y tener que cargar información a mano en el sistema era algo que les llevaba mucho tiempo y pasó a llevarles segundos.

Pero ahora ese tipo de usos se puede resolver si necesidad de hacer el OCR, y resolviendo toda la tarea en un solo paso con un modelo multimodal.

Y otro caso similar que les cuento por si les sirve de inspiración, es que tambien hace un tiempo estuve ayudando a un gobierno provincial a transformar la busqueda de partidas de nacimiento, matrimonio y defunción. Ya que este era el tramite mas pedido por los ciudadanos por todo el tema de las ciudadanías italianas que hay mucha gente tramitandola y es hacía que este sea el tramite numero 1 por lejos que mas demanda tenía.

Y no se si vieron alguna vez cómo son esas partidas pero están en libros de actas del año 1900 escritas con una letra difícil de descifrar y buscar algo ahí es realmente complicado.

Entonces ahora con estos modelos se puede digitalizar esa información de una manera mucho más simple. Así que ahí tenemos otro ejemplo de lo mismo. Imaginense el tiempo de hacer la tarea buscando a mano o digitalizando a mano los libros del 1900 a hacer búsquedas digitales o digitalizarlos usando estas tecnologías. El cambio es abismal.

El siguiente caso de uso que quiero comentar es el de una aplicación que hace capturas de pantalla de la página web que vos le digas y usando uno de estos modelos hace un análisis y genera un reporte con recomendaciones que se pueden hacer en ese sitio para mejorar las ventas o las conversiones. Este es otro ejemplo que puede servir de inspiración para generar reportes de lo que se les ocurra a partir de fotos. Es cosa de ponerle un poco de imaginación.

Sigamos con otro caso de uso que lo vi en twitter hace un tiempo, les dejo el link en las notas para que vean la demostración, que es un usuario que creó un programa en su computadora que va sacando capturas de la camara cada 5 segundos, y las envia a un modelo para que vaya creando un relato de lo que se ve y para hacerlas mas completa, ese relato se lo envia a un servicio que convertir el texto a una voz hablada estilo esas voces en off de los documentales de National Geographic y queda fantástico!

Y después hubo otro usuario que hizo algo muy similar a eso pero pasandole todos los frames de un video de un gol de messi y con eso creó un relato completo de la jugada. Es espectacular! Se los dejo tambien en las notas para que lo vean.

Sigamos. Otro caso interesante puede ser el de estimar cantidades. Digo estimar porque se sabe que no en todos los casos puede contar bien cuanta cantidad de algun objeto hay en una imagen, pero bueno igual esto es algo que se supone que en los proximos meses puede quedar solucionado al ritmo de avance con el que venimos.

Pero bueno, con el tema de estimar me llamó mucho la atención porque lo puede hacer mucho mejor que casi cualquier ser humano. Y escuchen este caso, hay juegos o programas de televisión que te hacen por ejemplo decir cuanta cantidad de tal cosa hay adentro de este recipiente transparente. Y por lo general las personas estimamos muy mal ese tipo de cosas.

En cambio vi un ejemplo donde le dan a un modelo una foto de una persona mirando un frasco de vidrio que está lleno de unas pequeñas bolitas de colores. 

Les dejo la foto en las notas y si quieren jugar un rato pongan pausa, vayan a verla y traten de estimar cuantas bolitas hay.

La respuesta correcta era 27.852. Y lo que hizo el modelo fue desarmar el problema en partes e ir armando una cadena de pensamiento, esto de cadena de pensamiento lo hablé hace algunos episodio también por si no se acuerdan y lo quieren ir a revisar, y entonces empieza a decir que usando como referencia el tamaño de la mano de la persona que está en la foto, estima el tamaño del frasco, calcula el radio, la altura y asi va avanzando sobre razonamiento y haciendo cálculos intermedios y al final dice que estima que hay 27.192.

Realmente eso me parece espectacular, que en el tiempo que tarda en armar esa respuesta que son segundos pueda hacer una estimación tan cercana. ¡Es fantástico!

Y bueno, siguiendo en línea con todo esto, Google tiene un modelo que se llama Gemini Pro que tiene la capacidad de trabajar con vídeos directamente. Porque todos estos ejemplos que yo estuve diciendo antes son ejemplos a partir de fotos.

Pero un modelo que ya puede trabajar directamente con un video es otro mundo. Eso abre un montón de otras posibilidades que bueno creo que nos darían para hacer un episodio entero solo hablando de eso, y si les interesa dejenme un comentario donde están escuchando esto y lo armo.

Y ahora, antes de terminar les quiero contar algo que creo que les va a gustar mucho. 

Dado que sé que muchos de ustedes son empresarios o emprendedores y tienen curiosidad y entusiasmo por incorporar inteligencia artificial o automatización en sus empresas, y ya empiezan a ver el impacto que va a tener todo esto y quieren estar a tono, quieren adelantarse para después no tener que correrla de atrás.

Voy a estar armando unas sesiones de asesoramiento virtuales en grupo, para poder ayudarlos, que me hagan preguntas, compartir ideas y también que se inspiren los unos a los otros, y que se arme ahí un buen ambiente de personas que quieran apalancarse de estas tecnologías para mejorar sus empresas.

Así que si te interesa sumarte a la iniciativa anotate en pochocosta.com/grupo y esa página va a estar disponible durante 1 semana y después ya se cierra. Asi que acordate pochocosta.com/grupo

Y bueno para cerrar, como siempre si te gustó el episodio compartirlo con alguien a quien creas que le pueda interesar, y si no lo hiciste todavía dejame 5 estrellitas en Spotify que eso ayuda a que este podcast pueda ser descubierto por mas personas.

Y ahora si, nos escuchamos en el próximo episodio donde seguiremos hablando de este hermoso mundo de la inteligencia artificial.

Dejar recomendación en iTunes