Learning beyond the spatial autocorrelation structure: A machine learning- based approach to discovering new patterns and relationships in the context of spatially contextualized modeling of voting behavior

Silva, Tiago Pinho da

doi:10.11606/T.55.2023.tde-15012024-174102

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.55.2023.tde-15012024-174102

Documento

Tesis Doctoral

Autor

Silva, Tiago Pinho da (Catálogo USP)

Nombre completo

Tiago Pinho da Silva

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2023-08-22

Publicación

São Carlos, 2023

Director

Batista, Gustavo Enrique de Almeida Prado Alves (Catálogo USP)

Tribunal

Batista, Gustavo Enrique de Almeida Prado Alves (Presidente)
Prati, Ronaldo Cristiano
Silva, Diego Furtado
Valejo, Alan Demetrius Baria

Título en inglés

Learning beyond the spatial autocorrelation structure: A machine learning- based approach to discovering new patterns and relationships in the context of spatially contextualized modeling of voting behavior

Palabras clave en inglés

Electoral behavior modeling
Electoral geography
Ensemble learning
Machine learning
Metalearning
Prediction error
Preferential voting
Semivariogram
Spatial autocorrelation
Spatial data modeling
Spatial data partitioning
Spatial dependence
Voting behavior

Resumen en inglés

Elections are a cornerstone of democratic societies, providing citizens with the means to elect their representatives and shape the direction of their government. However, we have seen in recent years an increase in concern about the integrity of electoral processes worldwide, with allegations of fraud and rising polarization. To better comprehend the electorate and the factors influencing its choices, an increase number of researchers have turned to electoral behavior modeling, which sheds light on political phenomena such as polarization and the demographic and socioeconomic contexts shaping the nature of the electorate. The literature on electoral behavior modeling can be broadly divided into two main areas: political science, which argues that only individual factors explain electoral behavior using primarily survey data; and electoral geography, which asserts that contextual factors, such as location, play a crucial role in determining electoral behavior using datasets with spatially aggregated information such as census data. Political science has become the dominant approach due to the increased quality of data collected from surveys, but the public availability of such data is limited and costly. In contrast, census data, which provides detailed information about a populations socioeconomic and demographic characteristics, is made publicly available by government agencies. However, despite its potential for providing comprehensive and insightful information on the electorate, large census datasets are underutilized in modeling electoral behavior, mainly due to the limitations of regression analysis in handling high-dimensional data and identifying non-linear relationships. To address these limitations, there has been a growing trend towards using machine learning methods that can better handle high-dimensionality and model non-linear relationships. However, most of these works neglect the spatial characteristics of the data. This thesis argues for the importance of incorporating spatial dependence information in the machine learning pipeline for the task of electoral behavior modeling using census data. The traditional machine learning pipeline can exhibit bias towards models that learn the spatial autocorrelation structure, hindering the discovery of novel patterns and relationships beyond this structure, which contradicts the main objective of identifying new patterns and relationships. In this thesis, the impact of spatial dependence on the task of electoral behavior modeling is studied, and adaptations to the traditional machine learning pipeline are proposed, developed, and evaluated for the considering task. In this regard, we propose two Spatial Cross-Validation techniques that take into account the spatial aspects of the data and provide scenarios for the evaluation of machine learning models without the influence of spatial dependence. Moreover, we propose a stacking-based machine learning approach to model the data based on geographical contexts and identify local and global relationships to understand the election results. The results in this thesis indicate that the proposed approaches are well-suited to the task of spatially contextualized modeling of electoral behavior. The validation techniques were able to provide more realistic and less biased scenarios when compared to existing approaches in the literature, and the machine learning approach outperformed the state-of-the-art in the literature and provided interpretable results. Overall, this research advances the state-of-the-art in electoral behavior modeling and provides a novel methodology in the electoral behavior area, paving the way for new machine learning approaches to help understand election results.

Título en portugués

Aprendendendo além da estrutura de autocorrelação espacial: Uma abordagem baseada em aprendizado de máquina para a descoberta de novos padrões e relações no contexto de modelagem espacialmente contextualizada do comportamento eleitoral

Palabras clave en portugués

Aprendizado de máquina
Autocorrelação espacial
Comportamento eleitoral
Dependência espacial
Erro de predição
Geografia eleitoral
Metaaprendizagem
Modelagem de comportamento eleitoral
Modelagem de dados espaciais
Modelos de ensemble
Particionamento de dados espaciais
Semivariograma
Votação preferencial

Resumen en portugués

As eleições são um pilar fundamental das sociedades democráticas, proporcionando aos cidadãos meios para eleger os seus representantes e moldar a direção de governos. No entanto, nos últimos anos, houve um aumento na preocupação com a integridade dos processos eleitorais em todo o mundo, com alegações de fraude e crescente polarização. Para compreender melhor o eleitorado e os fatores que influenciam suas escolhas, um número crescente de pesquisadores se voltaram para a modelagem do comportamento eleitoral, que lança luz sobre fenômenos políticos como a polarização e os contextos demográficos e socioeconômicos que moldam a natureza do eleitorado. A literatura sobre modelagem de comportamento eleitoral pode ser amplamente dividida em duas áreas principais: ciência política, que argumenta que apenas fatores individuais explicam o comportamento eleitoral usando principalmente dados de pesquisas eleitorais; e geografia eleitoral, que afirma que fatores contextuais, como localização, desempenham um papel crucial na determinação do comportamento eleitoral usando conjuntos de dados com informações agregadas espacialmente, como dados do censo. A ciência política tornou-se a abordagem dominante devido ao aumento da qualidade dos dados coletados nas pesquisas, mas a disponibilidade pública de tais dados é limitada e cara. Em contraste, os dados do censo, que fornecem informações detalhadas sobre as características socioeconômicas e demográficas de uma população, são disponibilizados publicamente por agências governamentais. No entanto, apesar de seu potencial para fornecer informações abrangentes e perspicazes sobre o eleitorado, esses tipos de dados são subutilizados na modelagem do comportamento eleitoral, principalmente devido às limitações dos principais métodos de modelagem do eleitorado em lidar com dados de alta dimensão e identificar relações não lineares. Para lidar com essas limitações, tem havido uma tendência crescente na utilização de métodos de aprendizado de máquina que podem lidar melhor com alta dimensionalidade e modelar relações não lineares. No entanto, a maioria desses trabalhos negligencia as características espaciais dos dados. Esta tese defende a importância de incorporar informações de dependência espacial no pipeline de aprendizado de máquina para a tarefa de modelagem do comportamento eleitoral usando dados do censo. O pipeline de aprendizado de máquina tradicional pode exibir viés em relação a modelos que aprendem a estrutura de autocorrelação espacial, dificultando a descoberta de novos padrões fora da estrutura de autocorrelação, o que contradiz o objetivo principal de identificar novos padrões. Nesta tese, o impacto da dependência espacial na tarefa de modelagem do comportamento eleitoral é estudado, e adaptações ao pipeline tradicional de aprendizado de máquina são propostas, desenvolvidas e avaliadas. Nesse sentido, propomos duas técnicas de validação cruzada espacial que levam em consideração os aspectos espaciais dos dados e fornecem cenários para a avaliação de modelos de aprendizado de máquina sem a influência da dependência espacial. Além disso, propomos uma abordagem de aprendizado de máquina baseada em stacking para modelar os dados com base em contextos geográficos e identificar relações locais e globais para entender os resultados das eleições. Os resultados desta tese indicam que as abordagens propostas são adequadas para a tarefa de modelagem espacialmente contextualizada do comportamento eleitoral. As técnicas de validação foram capazes de fornecer cenários mais realistas e menos tendenciosos quando comparadas às abordagens existentes na literatura, e a abordagem de aprendizado de máquina superou o estado da arte na literatura e forneceu resultados interpretáveis. No geral, esta pesquisa avança o estado da arte em modelagem de comportamento eleitoral e fornece uma nova metodologia na área, abrindo caminho para novas abordagens de aprendizado de máquina para ajudar a entender os resultados das eleições.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

TiagoPinhodaSilva_DO_revisada.pdf (16.82 Mbytes)

Fecha de Publicación

2024-01-15

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.