• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.104.2022.tde-21102022-112410
Document
Author
Full name
Matheus Toshio Hisatugu
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2022
Supervisor
Committee
Andrade Filho, Mário de Castro (President)
Cirillo, Marcelo Angelo
Giampaoli, Viviana
Title in Portuguese
Observações atípicas em alta dimensão
Keywords in Portuguese
Análise de componentes principais
HeteroPCA
Maldição da dimensionalidade
Observações atípicas em alta dimensão
Ruído heteroscedástico
Abstract in Portuguese
Observações atípicas e ruído heteroscedástico são duas situações muito comuns em Estatística. Atualmente, a quantidade de dados gerada é muito alta e por essa razão é possível encontrar dados de alta dimensão (número de variáveis, ou dimensão, d tão grande ou maior do que o número de observações n). Além disso, é possível que os dados possuam ruído heteroscedástico, isto é, a variância do ruído pode variar de entrada para entrada. A análise de componentes principais (ACP) é uma técnica muito utilizada que tem como principal objetivo a redução da dimensionalidade. A técnica é utilizada em diversas áreas como a Estatística, Econometria, Aprendizado de Máquina e Matemática Aplicada. Choi e Marron (2019) apresentaram uma nova noção de valores atípicos em alta dimensão que engloba outros tipos e, além disso, investigaram o comportamento dessas observações atípicas no subespaço criado pela análise de componentes principais. Grande parte das técnicas utilizadas nesse contexto são utilizadas sob a suposição de homoscedasticidade, porém, como já mencionado, sabe-se que isso nem sempre acontece. Sendo assim, Zhang, Cai e Wu (2022) propuseram um novo método chamado HeteroPCA que tem como objetivo principal remover o viés da diagonal principal da matriz de covariâncias amostral sob o qual está sujeita devido à heteroscedasticidade. Este trabalho tem como objetivo combinar o método proposto por Zhang, Cai e Wu (2022) com a metodologia proposta por Choi e Marron (2019) para encontrar um subespaço capaz de identificar a presença de observações atípicas quando o ruído heteroscedástico está presen
Title in English
Outliers in high dimension
Keywords in English
Curse of dimensionality
HeteroPCA
Heteroskedastic noise
High dimensional outliers
Principal component analysis
Abstract in English
Outliers and heteroskedastic noise are two common situations in Statistics. Nowadays the amount of generated data is very high and for this reason it is possible to find high dimensional data (the dimension d is just as large or larger than the number of observations n). Furthermore, it is possible that the data have heteroskedastic noise, which means that the noise variance can be different entrywise. Principal component analysis is a technique that aims to create a subspace with lower dimension than the original space. The technique is used in different areas such as Statistics, Econometrics, Machine Learning and Applied Mathematics. Choi and Marron (2019) introduced a new notion of high dimensional outliers that embraces other types and also investigates the behaviour of these outliers in the subspace created by the principal components analysis. Most of the techniques used in this context are based on the assumption of homoskedastic noise. However, as mentioned before, it is known that this is not always the case. Therefore, Zhang, Cai and Wu (2022) proposed a new method called HeteroPCA, which main objective is to remove the bias of the main diagonal of the sample covariance matrix due to heteroskedasticity. In this work, the main objective is to combine the method proposed by Zhang, Cai and Wu (2022) and the methodology proposed by Choi and Marron (2019) to find a subspace capable of identifying the presence of outliers when heteroskedasticity noise is present
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2022-10-21
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.