Utilizando Twitter para Monitorear los Reclamos de la Ciudadanía (2)

Luego de una pausa bastante prolongada (de más de un año), retomo el blog para continuar con los detalles de la implementación del análisis de tweets con menciones a la Municipalidad de Asunción.

En la primera parte compartí el resultado de un análisis de 70.000 tweets compilados desde Octubre 2017 a Octubre 2018. En esta segunda entrega voy a repasar la implementación técnica del análisis de tal manera a facilitar la reproducción, y con una fuente de datos más extensa que contiene más de 200.000 tweets publicados desde Enero 2017 hasta Octubre 2019.

En esta publicación no voy a incluir pedazos de código, ni las gráficas obtenidas. El análisis completo con el código, los resultados y el archivo con todos los tweets se encuentran disponibles como un kernel de Kaggle, para que lo puedan bajar y compartir libremente. Los kernels de Kaggle son ambientes de experimentación personales que pueden utilizar fuentes de datos propias o compartidas por otros usuarios. Es la platforma ideal para experimentar y compartir fuentes de datos que permitan diferentes perspectivas sobre los mismos hechos.

Si bien gran parte del análisis se encuentra publicado en la primera parte, me pareció interesante extraer tweets mas recientes para entender como evolucionaron los temas de conversación y las problemáticas en el tiempo. Además, incluí gráficas comparativas adicionales y una sección dedicada al modelado de topicos con una técnica denominada Latent Dirichlet Allocation (LDA).

En una (posible) próxima parte, me gustaría explorar la aplicación de técnicas de series de tiempo que permitan realizar proyecciones de ciertos eventos de acuerdo a las conversaciones, como por ejemplo, predecir futuras ocurrencias de menciones relacionadas al dengue.

Written on November 21, 2019