• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.55.2019.tde-29042019-145141
Documento
Autor
Nombre completo
Kelly Cristina Ramos da Silva
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2019
Director
Tribunal
Ponti, Moacir Antonelli (Presidente)
Alencar, Airlane Pereira
Guzmán, Jorge Luis Bazán
Lorena, Ana Carolina
Título en inglés
Robust outlier labeling rules for light-tailed and heavy-tailed Data
Palabras clave en inglés
Evaluation measure
Outlier rules
Outside rate
Robust methods
Skewness or tail heaviness
Resumen en inglés
Outlier rules are used to detect outliers in univariate data. A commonly used outlier rule is based on a graphical tool for univariate data analysis, named the boxplot. However, it is well known that boxplot exhibits significantly lower performance for skewed distributions, in comparison to the symmetric case. In order to overcome this deficiency, an outlier rule known as adjusted boxplot, has been proposed in the literature. Adjusted boxplot modifies the classical boxplot by incorporating into it a skewness measure. Although this modification has resulted in a state-of-the-art version of the classical boxplot, it has the drawback of leading to a rule that is not flexible enough to permit easily to pre-specify a nominal outside rate. Furthermore, the adjusted boxplot can present, for some situations, significantly higher computational cost than the classical boxplot, since its computational complexity is O(nlogn), while the classical boxplot is O(n): In order to address those issues, this thesis proposes a more formal approach to deriving outlier rules that proved to produce rules which exhibit overall better performance than that of the adjusted boxplot, specially as the contamination level increases. Moreover, those proposed rules have the advantages of being more flexible and possessing lower computational cost than the adjusted boxplot. Furthermore, it is shown that the classical boxplot and many of its modifications or variations are unified by the same concept introduced by this thesis: quartile contrast. The problem with the outlier rules based on quartile contrast, as well as the adjusted boxplot, lies in the fact that they are more suitable for light-tailed data than for heavy-tailed data. For heavy-tailed data, it has been proposed in the literature an outlier rule known as the generalized boxplot. The main problem with the generalized boxplot lies in the fact it is very unstable, since a single outlier might dramatically affect its performance. In order to address this issue, the thesis uses the quartile contrast approach to deriving an outlier rule sensitive to tail heaviness. The experimental analysis show that the tail-heaviness sensitive outlier rule proposed by the thesis indeed presents more stable performance than the generalized boxplot. The performance evaluation of outlier rules is a problem on its own. Therefore, to measure performance of outlier rules, the thesis introduces the GME, a measure that has proved to be more effective to assess performance of outlier rules than the traditional measures involving only false positive rate and false negative rate.
Título en portugués
Regras robustas para rotular outliers em dados de caudas leves e caudas pesadas.
Palabras clave en portugués
Assimetria ou peso da cauda
Erro de rotulação
Medida de avaliação
Métodos robustos
Regras robustas
Resumen en portugués
As regras de outlier são usadas para detectar outlier em dados univariados. Uma regra de outlier comumente usada é baseada em uma ferramenta gráfica para análise univariada de dados, denominada boxplot. No entanto, é bem conhecido que o boxplot apresenta um desempenho significativamente inferior para distribuições assimétricas, em comparação com o caso simétrico. Para superar essa deficiência, uma regra de outlier conhecida como boxplot ajustado foi proposta na literatura. O boxplot ajustado é uma modificação do boxplot clássico, incorporando nele uma medida de assimetria. Embora o boxplot ajustado tenha resultado em uma versão melhorada, se comparada ao boxplot clássico, ele tem a desvantagem de ser uma regra não flexível o suficiente para permitir a pré-especificação de um erro nominal de rotulação. Além disso, o boxplot ajustado pode apresentar, para algumas situações, um custo computacional significativamente maior se comparado ao boxplot clássico, já que a sua complexidade computacional é O(nlogn), enquanto o boxplot clássico é O(n): A fim de abordar essas questões, esta tese propõe uma abordagem mais formal para deduzir regras de outlier que produzim regras que exibem um desempenho geral melhor do que o do boxplot ajustado, especialmente à medida que o nível de contaminação aumenta. Além disso, essas regras propostas têm as vantagens de serem mais flexíveis e possuírem menor custo computacional do que o boxplot ajustado. Além disso, é mostrado que o boxplot clássico e muitas de suas modificações ou variações são unificadas pelo mesmo conceito introduzido por esta tese: contraste de quartis. O problema com as regras de outlier baseadas em contraste de quartis, bem como o boxplot ajustado, reside no fato de que elas são mais adequadas para dados unimodais simétricos e assimétricos do que para dados com cauda pesada. Para dados de cauda pesada, foi proposto na literatura uma regra de outlier conhecida como boxplot generalizado. O principal problema com o boxplot generalizado está no fato de ele ser muito instável, já que um único outlier pode afetar drasticamente seu desempenho. Para resolver esse problema, a tese usa a abordagem contraste de quartis para deduzir uma regra de outlier sensível ao peso da cauda. As análises experimentais mostram que a regra de outlier sensível ao peso da cauda proposta pela tese realmente apresenta um desempenho mais estável do que o boxplot generalizado. A avaliação de desempenho de regras de outlier é um problema por si só. Portanto, para medir o desempenho de regras outlier, a tese apresenta a GME, uma medida que se mostrou mais eficaz para avaliar o desempenho de regras de outlier do que as medidas tradicionais envolvendo apenas taxa de falsos positivos e taxa de falsos negativos.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2019-10-16
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.