• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.3.2023.tde-11052023-080858
Documento
Autor
Nome completo
Wesley Lourenço Barbosa
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2023
Orientador
Banca examinadora
Souza, Solange Nice Alves de (Presidente)
Calheiros, Alan James Peixoto
Rizzo, Luciana Varanda
Título em português
Avaliação do impacto da qualidade de dados em modelos de distribuição de espécies.
Palavras-chave em português
Espécies virtuais
Modelos de distribuição de espécies
Qualidade de dados
Simulação
Viés
Resumo em português
Os modelos de distribuição de espécies se tornaram uma ferramenta importante em ecologia, biogeografia, sustentabilidade e, mais recentemente, em gestão de conservação. No entanto, problemas de qualidade presentes nos dados utilizados na modelagem de distribuição de espécies podem resultar em modelos imprecisos e que não refletem o real padrão de distribuição das espécies. Como consequência, estratégias de conservação baseadas em modelos de distribuição gerados por dados enviesados, podem resultar em desperdício de recursos financeiros ou perda importante de biodiversidade. Assim, o objetivo deste trabalho é investigar como problemas de qualidade de dados afetam os resultados dos modelos de distribuição de espécies. A metodologia do trabalho emprega uma estratégia de simulação que consiste na criação de duas bases de dados, uma base de controle e outra de erros. A base de controle é constituída por dados ambientais e dados simulados de presença e ausência de uma espécie virtual. A base de erros é imputada com problemas de qualidade e utilizada para a amostragem de diferentes gradientes de erros para teste. Os resultados da revisão de escopo indicaram que erros de localização, erros de identificação e viés geográfico são os mais comuns em dados de ocorrência de espécies. Os algoritmos de Maximum Entropy Modeling (Maxent), Random Forest (RF) e Generalized Linear Model (GLM), Neural Network (NN) e Extreme Gradient Boosting (XGBoost) foram utilizados e avaliados quanto a robustez e capacidade de generalização mesmo para amostras de treinamento com erros de qualidade de dados. O XGBoost gerou modelos bastante robustos a diversos tipos e intensidades de erros. O GLM gerou os modelos mais sensíveis aos problemas de qualidade. O tipo de erro de viés geográfico foi o que teve maior efeito sobre os resultados dos modelos, enquanto os erros de localização, embora muito discutidos na literatura científica, só geraram impacto expressivo quando a amostra estava contaminada por erros de alta intensidade. A métrica AUC (Area Under the Curve), comumente utilizada para validar modelos de aprendizado de máquina para tarefas de classificação, mostrou-se pouco susceptível à presença de erros nos dados de treinamento, por outro lado, as métricas Kappa, MCC (Matthews Correlation Coefficient), TSS (True Statistics Skill) estão entre as mais sensíveis a problemas de qualidade. Este trabalho empregou a simulação de espécies virtuais, geradas a partir do comportamento identificado de 6 espécies de nicho ecológico amplo e restrito obtidas no repositório de dados de biodiversidade GBIF, para avaliar o impacto de diferentes gradientes de três tipos de erros de qualidade de dados em modelos de distribuição de espécie. Os resultados trazem um aprofundamento importante no entendimento dos impactos dos erros nos dados de ocorrência de espécies, e contribuem para avanço da área de estudos de qualidade de dados em estudos de biodiversidade e conservação.
Título em inglês
Evaluation of the impact of data quality on species distribution models.
Palavras-chave em inglês
Data quality
Simulation,Bias
Species distribution models
Virtual species
Resumo em inglês
Species distribution models have become an important tool in ecology, biogeography, sustainability and, more recently, in conservation management. However, quality problems present in the data used in species distribution modeling can result in inaccurate models that do not recognize the actual pattern of species distribution. Therefore, conservation strategies based on distribution models generated by biased data can result in wasted financial resources or important loss of biodiversity. Thus, the objective of this work is to investigate how data quality problems affect the results of species distribution models. The methodology employs a simulation strategy that consists of creating two databases, a control database and an error database. The control base consists of environmental data and simulated data of the presence and absence of a virtual species. The error database is imputed with quality problems and used for sampling different error gradients for testing. The results of the scoping review indicated that location errors, identification errors and geographic bias are the most common in species occurrence data. The Maximum Entropy Modeling (Maxent), Random Forest (RF) and Generalized Linear Model (GLM), Neural Network (NN) and Extreme Gradient Boosting (XGBoost) algorithms were used and evaluated for robustness and generalization ability even for training samples with data quality errors. XGBoost generated models that are quite robust to different types and intensities of errors. The GLM generated the models most sensitive to data quality issues. The type of geographic bias error had the greatest effect on the results of the models, while location errors, although much discussed in the scientific literature, only generated a significant impact when the sample was contaminated by high-intensity errors. The AUC (Area Under the Curve) metric, commonly used to validate machine learning models for classification tasks, proved to be little susceptible to the presence of errors in the training data, on the other hand, Kappa, MCC (Matthews Correlation Coefficient) and TSS (True Statistics Skill), are among the most sensitive to data quality problems. This work used the simulation of virtual species, generated from the identified behavior of 6 species of broad and narrow ecological niche obtained from the biodiversity data repository GBIF, to evaluate the impact of different gradients of three types of data quality errors in species distribution models. The results bring an important deepening in the understanding of the impacts of errors in species occurrence data, which contributes to advancing the area of data quality studies in biodiversity and conservation studies.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2023-05-11
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.