Bienvenidos a el Podcast de Inteligencia Artificial
Hoy les quiero hablar de un articulo que leí y me pareció super interesante. Se trata de un post publicado por Luis Miguel Sánchez, uno de los científicos de datos más top de EEUU. Que es Venezolano y está radicado en EEUU desde finales de los 80s.
Resulta que una de las especialidades de Luis es trabajar con datos alternativos.
Que son los datos alternativos y para que sirven
¿Pero que son los datos alternativos? Bueno según Wikipedia este es un término usado en finanzas que se refiere a los datos que se usan para obtener información en un proceso de inversión y estos conjuntos de datos son usados por administradores de fondos de inversión y profesionales en las compañías de inversión.
Y se llaman datos alternativos porque pueden tener información sobre una empresa o un evento particular, sin que la empresa haya generado esos datos de forma directa o sin que los datos se hayan originado alrededor del evento.
Sin embargo el análisis de estos datos alternativos realizado por un científico de datos puede dar información única y oportuna sobre las oportunidades de inversión.
Ahora bien, además de toda la información que analizan también tienen que analizar el riesgo político. Según la wikipedia, el riesgo político es un tipo de riesgo que enfrentan inversionistas, corporaciones, o gobiernos en el cual decisiones políticas o ocurrencia de eventos podrían afectar significativamente la rentabilidad de una inversión, o el valor esperado de una acción económica determinada.
Ok, ahora que ya tenemos ese contexto teórico sigamos.
Como les dije, Luis es Venezolano y está radicado en EEUU desde finales de los 80s.
Usando Change.org como fuente de datos alternativos
Sabiendo que la información que aparece en los medios tradicionales puede estar manipulada o teñida con cuestiones políticas. Lo que hizo fue usar el sitio change.org como fuente de datos alternativos para tratar desde la ciencia de datos de entender la voz colectiva de la gente involucrada con respecto a Venezuela.
Este tipo de análisis es parte de los análisis que usan los fondos de inversión más grandes del mundo para tomar sus decisiones. Y como bien dice Luis, son una oportunidad muy grande para el machine learning y las herramientas de inteligencia artificial, ya que este tipo de análisis está siendo muy poco usado.
Actualidad del machine learning aplicado a finanzas
La mayoría de los proyectos de machine learning relacionados con las finanzas son sistemas de análisis técnico financiero que se hacen más bien como experimentos académicos. Ahora, si incorporas análisis automatizado de noticias, demandas judiciales, opiniones de gente sobre temas políticos, activismo político, etc, tienen muchísimo valor y según dice Luis tienen más valor cuando se usan para analizar negociaciones de deuda que para analizar acciones.
Bien, metámonos en el análisis.
Para los que no la conocen change.org es una plataforma para juntar firmas online que según su sitio web permite a casi 300 millones de usuarios crear cambios en sus comunidades.
Y funciona de la siguiente manera: cualquier persona puede crear una petición de forma gratuita, luego la comparte con sus amigos, familiares y quien sea para pedirles que la firmen y también que la compartan.
Si esa petición toma relevancia por la cantidad de firmas, te brindan ayuda para llegar a los medios de comunicación y acercar esas firmas a quien corresponda.
Una vez que la petición se haya cumplido el que la inicia debe marcarla como una victoria en la plataforma.
Según su sitio ya han logrado más de 34 mil victorias en 196 países.
Luis dice que eligió este sitio porque captura más o menos de forma transparente la intención de personas comunes hacia una causa.
Y bueno ya metiéndonos un poco en lo técnico, como las peticiones se ingresan en un formulario de texto libre, para poder procesarlas se tiene que hacer bastante de procesamiento de lenguaje natural para desambiguar los términos y estructurar los datos.
Además como las peticiones se pueden escribir en cualquier idioma el desafió era más grande aún.
Fases del proyecto de ciencia de datos
El proyecto se dividió en 4 partes
- Recopilación y limpieza de datos
- Traducción y desambiguación
- Etiquetado
- Visualización
Para recopilar los datos se usó un scraper en python, y lo que se buscó fué la palabra Venezuela. En los resultados lo que se devuelve es: el link a la petición, a quien va dirigida, el título, quién la creó, una imagen, la ciudad desde donde se creó, la cantidad de personas que firmaron la petición y la fecha de creación.
El resultado trae peticiones desde el segundo trimestre de 2012 hasta ahora. La clasificación se hizo en dos grupos, a favor de Maduro y en contra de Maduro.
Como el volumen de datos era pequeño el etiquetado se hizo manualmente. Entonces por ejemplo una petición dirigida a la corte internacional de justicia cuyo título decía “Investigar la masacre tal en Venezuela” se clasificó como “contra Maduro”. Ya que se trata de la falta de confianza en el sistema judicial venezolano.
Visualización de datos
Con todo esto listo, ahora viene la parte de visualización de datos. Yo lo voy a explicar con mis palabras pero les dejo los gráficos en las notas por si los quieren ir mirando.
La primera visualización es que sumados las firmas de las peticiones dan 54.502 a favor de Maduro y 545.841 en contra de Maduro.
Ahora si se observan las firmas a las peticiones a través del tiempo los apoyos a favor de Maduro se producen sólo en dos momentos. A principios de 2015 y en el 2019.
Después hay un gráfico de burbujas muy bueno donde se ven las peticiones en diferentes tamaños según la cantidad de firmas que tuvieron, con su título, el creador y la cantidad de firmas. Esta bueno para ver de qué se trataban las peticiones que más apoyo tuvieron tanto a favor como en contra.
En total las peticiones a favor de Maduro son 10. La que más apoyo tuvo fue creada desde Venezuela pero no tiene un creador. Supongo que será una persona que borró su cuenta de change.org o algo similar y por eso no se ven los datos.
De las 9 restantes, hay 3 que son significativas por la cantidad de apoyos y son creadas por la misma persona desde Washington DC.
Según el análisis que hace Luis, estas peticiones no parecen ser peticiones orgánicas de la gente de Venezuela, sino más bien algo contra Donald Trump. Ya que el creador es un tal Robert Naiman, un lobista que escribe sobre política exterior en el diario Huffington post.
En cambio las peticiones en contra de Maduro son muchísimas, y están generadas desde Venezuela pero también desde otros países del mundo. España, Estados Unidos, Ecuador, Canadá y Trinidad y Tobago.
Bueno ahora salgamos de los números y vayamos a las palabras que se usaron en las peticiones para intentar captar el significado de las peticiones.
Lo que se hizo acá es ponderar las palabras de los títulos de las peticiones por la cantidad de firmas de la petición. Se eliminaron las stop words (son las palabras que no aportan nada, como de, la, y ese tipo de palabras, las contracciones como se dice en gramática) también se sacó la palabra Venezuela. Y listo con eso se arma una nube de palabras donde las palabras que se ven más grandes son las más representativas.
Nubes de palabras
Los gráficos del resultado están en las notas del programa. Igual les cuento lo principal que se vé. En la peticiones contra Maduro las palabras más relevantes son: Crimen, Corte, Legal y Justicia.
En la nube de palabras de las peticiones a favor de Maduro se destacan palabras como Inmediatamente, Debe, Detener, Rendirse, Ejecutivo, Congreso y Guerra.
Y ahora toca el turno de analizar hacia quien se dirigen las peticiones. También ponderandolas por la cantidad de firmas. Las que son “Contra Maduro” se dirigieron a: La Corte Internacional de Justicia (La Haya), a la OEA, al Secretario General de la Organización de los Estados Americanos, a Luis Almagro (que es el secretario general de la OEA), al Presidente de los Estados Unidos y al Senador Marco Rubio.
Y las peticiones ponderadas “a favor de Maduro” se dirigieron a: El Presidente de los Estados Unidos, La Cámara de Representantes de los Estados Unidos, el Senado de los Estados Unidos, el Secretario de Estado de los Estados Unidos, y al Parlamento de Australia.
Por último lo que se analizó fueron las imágenes asociadas a las peticiones que son las que se usan para promoverlas en las redes sociales y aplicaciones de mensajería para conseguir más firmas.
Las imágenes también aportan un montón de información para complementar a todo el conocimiento que se extrajo del texto.
Acá no se usó visión por computadora. Simplemente se tomaron las imágenes de las 5 peticiones con más firmas tanto a favor de Maduro como en contra de Maduro.
Las dejo en las notas tambien, pero mas que nada lo que se puede ver es que las que son en contra de Maduro son fotos de personas heridas, en la calle, enfrentamientos con la policía y cosas así.
Peticiones “Contra Maduro” (en su mayoría escritas en español):
- Corte Penal de La Haya investiguen al gobierno Venezolano por crímenes de Lesa Humanidad
- Ciudadanos del mundo defendiendo a Venezuela ONU / CPI / OEA
- Venezuela-Justicia Por la violación de los derechos humanos y los tratados en la masacre de Oscar Pérez
- Investiguen al Gobierno de Maduro por crímenes de Lesa Humanidad
- Solicitud de # IntervenciónMilitarYa o #InjerenciaHumanitariaYa en Venezuela
Peticiones “Pro-Maduro” (en su mayoría escritas en inglés, traducidas al español):
- Retiro inmediato de la Orden Ejecutiva en contra de Venezuela
- @SenatorDurbin: resista la guerra de cambio del régimen inconstitucional de Trump en Venezuela
- Congreso: prohiba explícitamente la guerra en Venezuela sin autorización del Congreso
- Dile a @CoryBooker & y al Congreso que bloquee la guerra de Trump en Venezuela
- Estados Unidos: Manos fuera de Venezuela!
De las 5 que son a favor de Maduro todas tienen que ver con Estados Unidos, 3 de ellas tienen la bandera de estados unidos.
Y acá termina el análisis que compartió Luis Miguel Sánchez. Para los interesados el código está en Github.
Conclusiones
La verdad, apartándome de la opinión política, y deseándole lo mejor a Venezuela y a los Venezolanos. Me pareció un muy interesante ejemplo de cómo extraer información de unos datos que son públicos y están ahí al alcance de todos.
Como este hay un montón de lugares de donde se pueden tomar datos y hacer cosas similares. Los más usados son las redes sociales.
Pero te pregunto ¿Se te ocurre alguna idea? Si se te ocurre algo interesante te invito a que lo dejes en los comentarios o me lo mandes por twitter y en el próximo episodio leo las ideas que me pasaron.
Y ahora para terminar agrego algo más que estaba en el post de Luis.
Recientemente ha habido grandes compras de deuda venezolana en default por parte de un fondo de inversión. La deuda en default de Venezuela es de más de 10 mil millones de dólares.
¿será que algo está por cambiar en Venezuela?
Hasta acá llegamos con este episodio, espero que te haya gustado.
Si queres enterarte apenas sale un nuevo episodio lo mejor es suscribirte desde tu teléfono en buscando el podcast en aplicaciones como Spotify, Google Podcast, iVoox o Apple Podcast. Y si además te animas a dejar un me gusta, un comentario o una reseña mucho mejor porque estarás ayudando a que el podcast puedan descubrirlo más personas.
Deja una respuesta