• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
10.11606/T.55.2006.tde-01092006-113751
Documento
Autor
Nome completo
Elaine Parros Machado de Sousa
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2006
Orientador
Banca examinadora
Traina Junior, Caetano (Presidente)
Heuser, Carlos Alberto
Medeiros, Claudia Maria Bauzer
Monard, Maria Carolina
Silva, Altigran Soares da
Título em português
"Identificação de correlações usando a Teoria dos Fractais"
Palavras-chave em português
data streams
identificação de correlações
teoria dos fractais
Resumo em português
O volume de informação manipulada em sistemas apoiados por computador tem crescido tanto no número de objetos que compõem os conjuntos de dados quanto na quantidade e na complexidade dos atributos. Em conjuntos de dados do mundo real, a uniformidade na distribuição de valores e a independência entre atributos são propriedades bastante incomuns. De fato, dados reais são em geral caracterizados pela ampla presença de correlações entre seus atributos. Além disso, num mesmo conjunto podem existir correlações de naturezas diversas, como correlações lineares, não-lineares e não-polinomiais. Todo esse cenário pode degradar a performance dos algoritmos que manipulam e, principalmente, dos que realizam análises dos dados. Além da grande quantidade de objetos a serem tratados e do número elevado de atributos, as correlações nem sempre são conhecidas, o que pode comprometer a eficácia de tais algoritmos. Nesse contexto, as técnicas de redução de dimensionalidade permitem diminuir o número de atributos de um conjunto de dados, minimizando assim os problemas decorrentes da alta dimensionalidade. Algumas delas são baseadas na análise de correlações e, com o objetivo de reduzir a perda de informação relevante causada pela remoção de atributos, procuram eliminar apenas aqueles que sejam correlacionados aos restantes. No entanto, essas técnicas geralmente analisam como cada atributo está correlacionado a todos os demais, tratando o conjunto de atributos como um todo e usando ferramentas de análise estatística. Esta tese propõe uma abordagem diferente, baseada na Teoria dos Fractais, para detectar a existência de correlações e identificar subconjuntos de atributos correlacionados. Para cada correlação encontrada é possível ainda identificar quais são os atributos que melhor a descrevem. Conseqüentemente, um subconjunto de atributos relevantes para representar as características fundamentais dos dados é determinado, não apenas com base em correlações globais entre todos os atributos, mas também levando em consideração especificidades de correlações que envolvem subconjuntos reduzidos. A técnica apresentada é uma ferramenta a ser utilizada em etapas de pré-processamento de atividades de descoberta de conhecimento, principalmente em operações de seleção de atributos para redução de dimensionalidade. A proposta para a identificação de correlações e os conceitos que a fundamentam são validados por meio de estudos experimentais usando tanto dados sintéticos quanto reais. Finalmente, os conceitos básicos da Teoria dos Fractais são aplicados na análise de comportamento de data streams, também constituindo uma contribuição relevante desta tese de doutorado.
Título em inglês
Correlation identification using the fractal theory
Palavras-chave em inglês
correlation identification
data streams
fractal theory
Resumo em inglês
The volume of information processed by computer-based systems has grown not only in the amount of data but also in number and complexity of attributes. In real world datasets, uniform value distribution and independence between attributes are rather uncommon properties. In fact, real data is usually characterized by vast existence of correlated attributes. Moreover, a dataset can present different types of correlations, such as linear, non-linear and non-polynomial. This entire scenario may degrade performance of data management and, particularly, data analysis algorithms, as they need to deal with large amount of data and high number of attributes. Furthermore, correlations are usually unknown, which may jeopardize the efficacy of these algorithms. In this context, dimensionality reduction techniques can reduce the number of attributes in datasets, thus minimizing the problems caused by high dimensionality. Some of these techniques are based on correlation analysis and try to eliminate only attributes that are correlated to those remaining, aiming at diminishing the loss of relevant information imposed by attribute removal. However, techniques proposed so far usually analyze how each attribute is correlated to all the others, considering the attribute set as a whole and applying statistical analysis tools. This thesis presents a different approach, based on the Theory of Fractals, to detect the existence of correlations and to identify subsets of correlated attributes. In addition, the proposed technique makes it possible to identify which attributes can better describe each correlation. Consequently, a subset of attributes relevant to represent the fundamental characteristics of the dataset is determined, not only based on global correlations but also considering particularities of correlations concerning smaller attribute subsets. The proposed technique works as a tool to be used in preprocessing steps of knowledge discovery activities, mainly in feature selection operations for dimensionality reduction. The technique of correlation detection and its main concepts are validated through experimental studies with synthetic and real data. Finally, as an additional relevant contribution of this thesis, the basic concepts of the Theory of Fractals are also applied to analyze data streams behavior.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2006-09-19
 
AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.
  • Sousa, E. P. M. de, et al. A Fast and Effective Method to Find Correlations among Attributes in Databases [doi:10.1007/s10618-006-0056-4]. Data Mining and Knowledge Discovery [online], 2007, vol. 14, p. 367-407.
  • Sousa, E. P. M. de, et al. Measuring Evolving Data Streams Behavior through Their Intrinsic Dimension [doi:10.1007/s00354-006-0003-3]. New Generation Computing [online], 2006, vol. 25, p. 33-60.
  • NUNES, S.A., et al. Fractal-based Analysis to Identify Trend Changes in Multiple Climate Time Series. Journal of Information and Data Management - JIDM [online], 2011, vol. 2, p. 51-57. Available from: http://seer.lcc.ufmg.br/index.php/jidm/article/view/105.
  • Appel, A. P., et al. A Density-Biased Sampling Technique to Improve Cluster Representativeness [doi:10.1007/978-3-540-74976-9]. In 11th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 07), Varsóvia, 2007. Lecture Notes in Computer Science.Berlin : Springer, 2007.
  • Appel, A. P., et al. Amostragem Balanceada Baseada na Correlação Fractal. In II Workshop de Algoritmos e Aplicações de Mineração de Dados (II WAAMD), Florianópolis - SC, 2006. Proceedings do II Workshop em Algoritmos e Aplicações de Mineração de Dados., 2006.
  • Appel, A. P., et al. Biased Box Sampling - A Density-Biased Sampling for Clustering [doi:10.1145/1244002.1244105]. In The 22nd Annual ACM Symposium on Applied Computing (SAC 2007), Seul, Coreia, 2007. Proceedings of the SAC 2007.New York, NY, USA : ACM Press, 2007. Resumo.
  • Felipe, J. C., et al. A Low-cost Approach for Effective Shape-based Retrieval and Classification of Medical Images. In First IEEE International Workshop on Multimedia Information Processing and Retrieval IEEE-MIPR, Irvine, CA, 2005. Proceedings of the IEEE MIPR.Los Alamitos, CA : IEEE press, 2005.
  • Felipe, J. C., et al. Effective Shape-based Retrieval and Classification of Mammograms. In 21th Annual ACM Symposium on Applied Computing (SAC 2006), Dijon, França, 2006. Proceedings of the SAC 2006.New York : ACM Press, 2006.
  • ROMANI, Luciana A., et al. Analyzing Data Streams through Fractal Dimension Monitoring. In SIAM Multimedia Data Mining Workshop 2009 - SDM 2009, Sparks, Nevada. Proceedings of the of MDM/SDM 2009. : SIAM Press, 2009.
  • Sousa, E. P. M. de, et al. Evaluating the Intrinsic Dimension of Evolving Data Streams. In 21th Annual ACM Symposium on Applied Computing (SAC), Dijon, França, 2006. Proceedings of the ACM SAC 2006.New York : ACM Press, 2006. Available from: http://portal.acm.org/citation.cfm?doid=1141277.1141426.
  • Sousa, E. P. M. de, et al. Tracking the Intrinsic Dimension of Evolving Data Streams to Update Association Rules. In 3rd International Workshop on Knowledge Discovery from Data Streams, 29/06/2006, parte do 23th International Conference on Machine Learning (ICML06), Pittsburgh, 2006. Proc. do WKDDS.Pittsburgh : Carnegie Mellon University, 2006. Available from: http://www.cs.cmu.edu/%7ejroure/iwkdds/schedule.html)..
  • Sousa, E. P. M. de, Traina, A. J. M., and Traina Jr., C.. SID: Calculating the Intrinsic Dimension of Data Streams. In Second Workshop on Fractals, Power Laws and Other Next Generation Data Mining Tools (in conjunction with 10th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining), Washington D.C., 2003. Proceedings of the Second Workshop on Fractals,Power Laws and Other Next Generation Data Mining Tools.Washington D.C. : ACM Press, 2003. Available from: http://www.isi.edu/~adibi/FractalKDD03/program.html.
  • ROMANI, Luciana A., et al. Aplicação de Técnicas de Mineração em Dados Climáticos e de Satélite para Auxiliar no Acompanhamento das Safras de Cana-de-Açucar. In IV Workshop sobre Mineração de Dados - Algoritmos e Aplicações (WAAMD 2008), Campinas, 2008. Anais do WAAMD 2008.Porto Alegre : Sociedade Brasileira de Computação, 2008.
  • ROMANI, Luciana A., et al. Employing Fractal Dimension to Analyze Climate and Remote Sensing Data Streams. In First SIAM SDM Workshop on Multimedia Data Mining (MDM/SDM 2009), Sparks, Nevada, 2009. Anals of the First SIAM SDM Workshop on Multimedia Data Mining (MDM/SDM 2009). : SIAM, 2009. Available from: http://sites.google.com/site/sdm2009mdm/Home/program.
  • NUNES, S. A., et al. Analysis of Large Scale Climate Data: How Well Climate Change Models and Data from Real Sensor Networks Agree?. In Large Scale Network Analysis (LSNA) Workshop of the WWW 2013 Conference, Rio de janeiro, 2013. WWW 2013 Companion Publication.New York : ACM, 2013. Dispon?vel em: http://www2013.org/companion/p517.pdf.
  • ROMANI, Luciana A., et al. Aplicação de Método Baseado em Fractais para Detecção de Correlações entre Imagens AVHRR-NOAA e Dados Climáticos para Regiões Produtoras de Cana-de-açúcar. In XIV Simpósio Brasileiro de Sensoreamento Remoto (SBSR), Natal, 2009. Anais do SBSR.São José dos Campos : Editora do INPE, 2009.
  • ROMANI, Luciana A., et al. Computational framework to analyze agrometeorological, climate and remote sensing data: challenges and perspectives. In XXXVI Seminário Integrado de Software e Hardware (SEMISH), Bento Gonçalves, 2009. Anais di SEMISH 2009.Porto Alegre : Sociedade Brasileira de Compputacao, 2009.
  • Traina, A. J. M., et al. How to Find Relevant Patterns in Climate Data: an Efficient and Effective Framework to Mine Climate Time Series and Remote Sensing Images. In 2010 SIAM Annual Meeting (AN10), Pittsburgh, 2010. Proc. of the SIAM 2010.Philadelphia : SIAM, 2010. Abstract.
  • Traina Jr., C., Sousa, E. P. M. de, and Traina, A. J. M. Using Fractals in Data Mining. In Mehmed Kantardzic, and Jozef Zurada. New Generation of Data Mining Applications. Organizador. Wiley/IEEE Press, 2005{Volume}. chap. 1, p. 1-22.http://www.teses.usp.br/teses/disponiveis/55/55134/tde-01092006-113751/
Todos os direitos da tese/dissertação são de seus autores
Centro de Informática de São Carlos
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2018. Todos os direitos reservados.