Aplicaciones de aprendizaje automático en investigaciones de Ciencias Sociales
El avance de la computación ha permitido que los investigadores de ciencias sociales puedan aplicar técnicas de ML para mejorar la administración y construcción de bases de datos.
Aplicaciones de aprendizaje automático en investigaciones de Ciencias Sociales
Por Carolina Judith Saavedra Peña
A lo largo de la historia, el trabajo empírico de las ciencias sociales estuvo limitado por la escasez de datos. Los datos no solo eran difíciles de encontrar, sino también la forma en cómo se almacenaban era bastante rústica en comparación al día de hoy. Sin embargo, con el avance de la computación, esto cambió, no solo se redujeron los costos monetarios de aplicación de encuestas u obtención de bases de datos, sino también la forma en cómo se podían acceder a estas: fue más rápida y eficiente.
La abundancia define ahora las ciencias sociales. La rápida expansión de los datos disponibles ha modificado la base de experimentos. Los investigadores solían confiar en cómo se administraban las encuestas de forma presencial: conocer si realmente se lograba recolectar la cantidad de encuestas fijadas como meta; además no podían observar si los regímenes éticos se estaban llevando a cabalidad. Por otra parte, era imposible observar si los encuestadores aplicaban de forma errónea las preguntas o inducían las respuestas, creando sesgos en la recolección de datos.
En las décadas pasadas para obtener datos sobre la salud de cada individuo en una comunidad, era necesario revisar cada historial médico que estaba archivado en un folder de una estantería de un hospital. Actualmente, se poseen los registros médicos de las personas en una computadora lo que permite no solo atender casos de forma más rápida en una emergencia, sino también a diagnosticar enfermedades de manera más precisa y urgente [1]. La diferencia no es solo una cuestión de cantidad, es más de calidad. Existen nuevas estructuras en cómo se almacenan los datos, lo que ha llevado a los investigadores sociales a modificar su capacidad para medir fenómenos.
El poder de la computación también se ha disparado con el uso de computadoras personales capaces de analizar millones de filas de datos y servicios de computación en la nube más poderosos fácilmente disponibles. Los científicos sociales confían cada vez más en los métodos de aprendizaje automático (ML por sus siglas en inglés) para aprovechar al máximo esta nueva abundancia. ML es una clase de técnicas algorítmicas y estadísticas flexibles para la predicción y la reducción de dimensiones. Diferentes autores señalan que la comunidad de aprendizaje automático prioriza en gran medida el rendimiento en los puntos de referencia cuantitativos establecidos [2].
La abundancia de datos y recursos facilita el paso de una ciencia social deductiva a un enfoque de inferencia más secuencial, interactivo y, en última instancia, inductivo. Los científicos sociales utilizan cada vez más el aprendizaje automático supervisado (SML por sus siglas en inglés) para analizar automáticamente el contenido de los medios [3].
Una serie de experimentos que empleaba SML para codificar problemas de política dentro de artículos de noticias y preguntas parlamentarias como conjunto de datos, estudió cómo cambia la capacidad de un clasificador para predecir ciertas cuestiones. Sobre todo, observando un artículo de noticias cuando se usan solo palabras de su sección principal en los datos de capacitación. Los resultados revelan que el SML está bien adaptado para codificar automáticamente el tema de política principal de los textos políticos. Sin embargo, la capacidad de un modelo SML para generalizar en contextos es limitada y depende de las características de los datos de entrenamiento disponibles [4].
Otro caso de uso de ML para automatizar procesos en la política se llevó a cabo en las elecciones del 2016 en Uganda empleando minerías de datos. En tal año, los primeros debates presidenciales televisados en el país dieron pase a un estudio en particular. United Nations Global Pulse, un equipo de la ONU encargado de aprovechar los macrodatos para el desarrollo, colaboró con el Programa de las Naciones Unidas para el Desarrollo (PNUD) para identificar, en conjunto, las percepciones públicas de cómo se organizaron los debates y si se consideraron como relevantes para el proceso electoral. Para ello, la iniciativa se centró en emplear las redes sociales como Facebook, donde se llevaron a cabo los debates. Esto implicó la recopilación, compilación y análisis de un gran volumen de texto no estructurado.
Emplearon minería de datos como metodología para analizar grandes conjuntos de datos, extraer información de ellos y transformarla en una estructura comprensible para su uso posterior. Como primer paso en el proceso, los mensajes anónimos se filtraron de la red social Facebook. El filtrado se realizó utilizando una taxonomía de palabras clave ("debate presidencial" o "#ugdebate16", por ejemplo). Esencialmente se seleccionaron según la inclusión o no de palabras clave específicas, luego se sometieron a un modelado de temas. Este modelado se utilizó para clasificar los mensajes en "comentarios generales" y "comentarios sobre temas específicos", siendo esta última categoría, los principales temas identificados fueron sobre “candidatos”, “moderadores”, “organizadores” y “divulgación” [5].
Los resultados principales mostraban cómo los niveles de conversación de los ciudadanos de Uganda estuvieron en torno a algunos candidatos, lo que podría atribuirse a una mayor visibilidad de los diferentes candidatos con el primer debate. Asimismo, se encontró que los debates políticos podrían ser visualizados en espacios públicos como estadios de fútbol o restaurantes para que las personas obtengan mayor información de los candidatos políticos.
El avance de la computación ha permitido el desarrollo de ML para un mejor análisis y construcción de bases de datos que permitan conducir experimentos sociales en diferentes áreas. La abundancia de datos y recursos hace que sea fácil pasar de una ciencia social deductiva a un enfoque de inferencia más secuencial, interactivo y, en última instancia, inductivo. Las aplicaciones de SML o minerías de datos permiten explotar una serie de posibilidades para predecir mejores resultados.
Referencias
[1] University of Illinois Chicago, “Machine Learning in Healthcare: Examples, Tips & Resources for Implementing into Your Care Practice”, Jul.22, 2021. Disponible: https://healthinformatics.uic.edu/blog/machine-learning-in-healthcare/
[2] J. Grimmer, M. Roberts y B. Stewart, “Machine Learning for Social Science: An Agnostic Approach”, Annual Review of Political Science, Vol. 24, pp 395-419, 2021.
[3] D. Hillard, S. Purpura, J. Wilkerson, “Computer-assisted topic classification for mixed-methods social science research”, J. Inf. Technol. Politics, Vol. 4, pp 31-46, 2008.
[4] B. Burscher, R. Vliegenthart y C. De Vreese, “Using Supervised Machine Learning to Code Policy Issues: Can Classifiers Generalize across Contexts?”, The ANNALS of the American Academy of Political and Social Science, Vol.659, no 1, pp 6-13, 2015.
[5] United Nations Uganda, Global Pulse y Pulse Lab Kampala, “Informing governance with social media mining”, 2016. Disponible: https://debates.unglobalpulse.net/uganda/