Aprendizaje por refuerzo ¿servirá para mejorar las economías?

Buenas!! Como andan? Semana numero 22 de este año 2020. Espero que estén de la mejor manera posible, sea donde sea que estén. La verdad que esta pandemia se está haciendo interminable o al menos para mí, es una sensación de que los días pasan volando y que hace como un año que empezó todo esto.

La verdad nunca pensé que iba a decir esto pero quiero volver a la rutinaaaaa!

Bueno, saliendo de la catarsis. Quiero aprovechar para agradecer todos los mensajes que me estuvieron enviando en el formulario de contacto, la verdad es que no tengo palabras para explicar lo gratificante de leer esos mensajes, que me digan que les gusta el podcast, todos con una onda super positiva, compartiendo cual es el episodio que mas les gustó! La verdad que me llenan de energía para seguir y además ese feedback es super valioso porque me ayuda a entender las preferencias de los temas que prefieren escuchar. Así que nuevamente muchas muchas gracias, de corazón.

Salesforce presenta AI Economist

Les cuento, hoy quise traer para hablar una noticia que surgió hace poco, que me parece super super interesante y es el proyecto que presentó Salesforce para simular una economía y encontrar estrategias impositivas que generen menor desigualdad.

Como siempre recuerden que se pueden suscribir al podcast en Ivoox, Spotify o la plataforma de podcast que mas les guste así no se pierden ninguno de los próximos episodios, y que me pueden encontrar en twitter como @pochocosta donde también los días viernes estoy compartiendo una especie de newsletter con 3 noticias de IA que me hayan parecido interesantes durante esa semana. Esto ya lo empecé a hacer hace un mes mas o menos y parece que viene gustando mucho así que lo voy a seguir haciendo. Bueno ahora sí, vamos con el tema de hoy.

Aprendizaje por refuerzo para optimizar impuestos

Hace unos días atrás Salesforce presentó un trabajo que estuvieron haciendo sus investigadores que se llama “AI Economist”. Lo que hace este sistema es simular una economía y usar aprendizaje por refuerzo para encontrar las políticas fiscales que optimicen la productividad y al mismo tiempo que haya mas igualdad entre los trabajadores. O sea, que no haya tanta desigualdad entre los que más tienen y los que menos tienen.

Y este trabajo me pareció super curioso, no por el resultado que el sistema vaya a producir, sino por el uso que se le está dando al aprendizaje por refuerzo que me parece super innovador!

Usos comunes del aprendizaje reforzado

Si se acuerdan, hace un tiempo habíamos hablado del aprendizaje por refuerzo cuando comentamos la noticia de que AlphaStar, el sistema creado por DeepMind le había ganado a jugadores profesionales jugando al StarCraft. Y habiamos mencionado también que DeepMind había conseguido anteriormente ganarle a campeones de Ajedrez y de Go.

Otra noticia relacionada al aprendizaje por refuerzo que tuvo muchas repercusiones hace relativamente poco fue el trabajo de OpenAI donde unos agentes inteligentes aprendían a jugar a las escondidas.

Y es que los usos más conocidos del aprendizaje por refuerzo estan relacionados con los juegos.

Tambien hay otro uso conocido del aprendizaje por refuerzo que es el de exploración autónoma. Esto es por ejemplo lo que usan algunos robots aspiradores para mapear y limpiar habitaciones.

El aprendizaje por refuerzo para los que no lo recuerden tiene un enfoque del estilo prueba y error. O mejor dicho, un enfoque de recompensa y castigo. Esas recompensas y castigos son lo que van haciendo que los agentes mejoren en la tarea.

Lo que tenemos que tener en mente con este tipo de aprendizaje es que está orientado al cumplimiento de objetivos o metas. Y lo del refuerzo viene de que se penaliza las malas decisiones o movimientos y se da una recompensa cuando lo hace bien. Esto lo podemos relacionar al mejor estilo “educando a tu mascota” y cuando hace las cosas bien le acaricias y le hablas con un tono de voz, y cuando hace pis en el sofá o rompió algo que no debía, le retas y le hablas con un tono de voz diferente. Esto sería exactamente lo mismo.

Pero con la idea que yo me quiero quedar es que es un aprendizaje para el cumplimiento de objetivos.

Y bueno el caso de «AI Economist» este trabajo de Salesforce donde usaron aprendizaje por refuerzo con el objetivo de aplicar una política fiscal que maximice la producción y genere menos distancia entre los que mas tienen y los que menos tienen me parece un uso super original.

Simular el mercado con aprendizaje reforzado

Lo que hicieron en si es crear una simulación de videojuego donde cuatro agentes trabajaban para ganar dinero. Lo que hacían era o cosechar recursos o construir casas.

Cada uno de estos cuatro trabajadores tenia un nivel de habilidad diferente para hacer cada actividad.

Entonces por ejemplo, algunos agentes descubrieron que se les daba mejor cosechar y vender recursos como madera o piedra, y esa era su mejor manera de ganar dinero.

Mientras que otros que tenían habilidades diferentes descubrían que a se les daba mejor la construcción y que su mejor manera de ganar dinero era construyendo casas. Entonces les compraban recursos a los que producían y con esos recursos construían las casas.

Ahora bien, todas estas actividades transcurren dentro de un periodo. Ese periodo es un periodo fiscal. Y al terminar ese periodo, entra en juego un quinto agente que se encarga de cobrar impuestos sobre los ingresos a cada uno de los trabajadores y después redistribuir el dinero de nuevo entre los trabajadores.

Todo este ciclo lo fueron repitiendo miles de veces y lo simularon con distintas estrategias de impuestos. Lo simularon con un enfoque de libre mercado, lo simularon también con el enfoque impositivo actual de Estados Unidos, y también con un enfoque teórico propuesto por el español Emmanuel Saez.

Y después lo que hicieron fue que este quinto agente que recauda y redistribuye los ingresos use aprendizaje por refuerzo con el objetivo de encontrar los impuestos que consigan maximizar la producción y generar mayor igualdad entre todos los agentes.

Y lo que muestran es que cuando dejaron a este quinto agente buscar la mejor estrategia, el sistema logró optimizar el equilibrio entre productividad y desigualdad de manera mas eficiente que las estrategias conocidas que decíamos antes.

Básicamente el resultado que dio es que en ese escenario simulado lo mejor era cobrar impuestos mas altos tanto a los que mas ingresan como a los que menos ingresan.

Esto es muy loco! No me voy a poner a discutir acá si esto me parece bien o mal. No es el objetivo. Pero yo imagino que lo debe buscar generar es alentar a los que menos ingresen a generar más para que le bajen los impuestos. No sé igual de economía yo se muy poco. Asi que ni idea…les dejo igual unas gráficas en las notas del programa para que vean exactamente como es.

Pero bueno el tema es que los impuestos mas bajos son para quienes tienen ingresos medios. A esta estrategia la llamaron “espalda de camello” en inglés en realidad que es “camelback”.

Asi que bien, en principio el escenario es demasiado simple. Claramente está muy lejos de una economía real donde el recaudador de impuestos tiene que estar todo el tiempo encontrando que estrategias se están usando para evadir impuestos y teniendo que implementar nuevas medidas o controles. La diferencia con la realidad es abismal Además está simulado con solo 4 agentes.

Pero ojo porque el experimento no terminó ahí. También lo probaron con humanos!

Lo que hicieron fue poner a personas a jugar y controlar a los agentes y en este caso tambien la política fiscal desarrollada por AI Economist tuvo un mejor balance entre igualdad y productividad.

Lo divertido con humanos es que dicen que comparados con los agentes controlados por inteligencia artificial la productividad fue menor porque los humanos hicieron estrategias como bloquear a otro jugador para que no pueda hacer sus movimientos y cosas de ese estilo que afectaron terriblemente la productividad.

Pero bueno, el resultado en si no es lo que me resulta interesante, sino que se empiece a usar este tipo de aprendizaje con otros objetivos mas allá de los juegos. O que nos demos cuenta que podemos plantear otro tipo de problemas como un objetivo y que tal vez la manera de resolverlo sea simulando un juego.

No sé, eso fue lo que a mi me pareció llamativo de este trabajo y es por eso que me dieron ganas de traerlo para conversarlo acá. Ademas no sé que les parece a ustedes pero a mi me parece bastante copada la idea de que los gobiernos usen inteligencia artificial y datos para simular estos escenarios. Que se yo, me parece que pueden salir cosas buenas.

Y bueno, hasta acá llegamos con el episodio de hoy, espero que les haya gustado! Como siempre si me quieren ayudar y quieren apoyar al podcast pueden dejar una reseña de 5 estrellas en iTunes o un comentario y un me gusta en ivoox. No se olviden de compartirlo con quien crean que le pueda interesar.

Y nos escuchamos en el próximo episodio, donde seguiremos hablando de este hermoso mundo de la inteligencia artificial.