Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2021.tde-24052021-171751
Document
Auteur
Nom complet
Giovana Jaskulski Gelatti
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2021
Directeur
Jury
Carvalho, André Carlos Ponce de Leon Ferreira de (Président)
Alves, Domingos
Ito, Márcia
Marques, Fátima de Lourdes dos Santos Nunes
Titre en portugais
Detecção de anomalia através da comparação de modelos representativos
Mots-clés en portugais
Aprendizado não supervisionado
Detecção de anomalia
Modelos representativos
Redes Bayesianas
Resumé en portugais
Lacuna: Regulamentos de privacidade e acesso a dados e leis de proteção de dados tornam a comparação de departamentos e identificação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identificar modelos destoantes e promover a comparação das instituições. Objetivo: O estudo propõe a criação de modelos de redes Bayesianas capazes de extrair conhecimentos novos e significativos a partir dos dados nas variáveis utilizadas no estudo de caso. Propomos a criação de modelos de seções obstétricas por meio de variáveis utilizadas para classificação de Robson (CR), utilizada para classificar gestantes em 10 grupos, estudo de possível integração de novas variáveis à CR, a recriação de dados pelos modelos e a detecção de departamentos obstétricos com comportamentos gerais muito diferentes (anômalos) pela comparação dos modelos. Métodos: Foi desenvolvido um modelo de rede Bayesiana com as variáveis utilizadas para CR por cada hospital envolvido no estudo. Propusemos e investigamos experimentalmente novas variáveis que podem melhor caracterizar e distribuir as gestantes nos grupos de Robson. As funções do pacote R "bnlearn" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados, comparando com medidas estatísticas de dados reais, e verificando se as distribuições nos grupos CR permanecem as mesmas. No intuito de construir uma matriz de distância para identificação de dados destoantes, a distância de Hamming foi utilizada para calcular as dissimilaridades entre os modelos. As anomalias detectadas foram validadas por especialista de acordo com a escala Likert. Resultados: Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência significativa aos dados reais. A comparação dos modelos sobre as seções de obstetrícia identificou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições.
Titre en anglais
Anomaly detection through representative model comparison
Mots-clés en anglais
Anomaly detection
Bayesian networks
Representative models
Unsupervised learning
Resumé en anglais
Background: Data access and privacy regulations and data protection laws make comparing departments in general and pattern detection difficult tasks. The collected data exploration together with a descriptive model induced from these data might help to identify dissonant models and promote the comparision among institutions. Aim: This study proposes the creation of Bayesian network models which able to elicit new and meaningful knowledge from the data in the variables used in the case study. We propose to create models of obstetric departments through the variables adopted in Robson classification (RC), used to classify pregnant women in 10 groups, the study of possible integration of new variables to RC, the recreation of data by the models and the detection of obstetric departments with very different general behaviors (anomalous) by comparing the models. Methods: A Bayesian network model was developed with the variables used for RC by each hospital involved in the study. We proposed and experimentally investigated new variables that can better characterize and distribute pregnant women in Robsons groups. The "bnlearn" R package functions were used to manipulate and recreating data across the model. The performance of this model was validated regarding its capacity of recreate data, comparing with real data statistic measures, and verifying whether the distributions on RC groups remain the same. To set up a distance matrix to identify dissonant data, Hamming distances were calculated model by model. The anomalies detected were validated by a specialist according to the Likert scale. Results: The data were described and recreated through Bayesian networks with data imputation, with a meaningful reference to real data. By comparing obstetric departments it was possible to identify patterns and anomalies. The comparison allowed to differentiate the departments with different cesarean rates and RC groups distributions, according to selected variables, thus preserving access to the real data of the institutions.
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2021-05-24
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées
cliquant ici.