Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas

Cantão, Adriano Henrique

doi:10.11606/D.59.2022.tde-05122022-102337

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.59.2022.tde-05122022-102337

Documento

Dissertação de Mestrado

Autor

Cantão, Adriano Henrique (Catálogo USP)

Nome completo

Adriano Henrique Cantão

E-mail

Unidade da USP

Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto

Área do Conhecimento

Computação Aplicada

Data de Defesa

2022-09-13

Imprenta

Ribeirão Preto, 2022

Orientador

Baranauskas, José Augusto (Catálogo USP)
Liang, Zhao - (Coorientador) (Catálogo USP)

Banca examinadora

Baranauskas, José Augusto (Presidente)
Araújo, Aluízio Fausto Ribeiro
Rezende, Solange Oliveira

Título em português

Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas

Palavras-chave em português

Métricas de centralidade
Random forests
Ranqueamento de atributos
Redes complexas

Resumo em português

O volume de dados disponíveis aumentou rapidamente nos últimos anos e, com isso, os datasets geralmente acabam tendo muitos atributos irrelevantes que podem dificultar a compreensão humana e até levar a modelos de aprendizado de máquina ruins. É possível lidar com esse problema ordenando os atributos de acordo com suas relevâncias e, se desejado, pode ser aplicado um valor de corte ou a estratégia dos top-k para reduzir o número de atributos, mantendo apenas os mais relevantes. Esta pesquisa aborda esse problema e propõe um novo método que emprega árvores de uma Random Forest para transformar um dataset em uma rede complexa na qual métricas de centralidade são aplicadas para ranquear os atributos. O processo representa cada árvore como um grafo, onde todos os atributos na Árvore de Decisão são vértices e as ligações entre os nós (pai → filho) da árvore são representados por uma aresta ponderada entre os dois respectivos vértices. A união de todos os grafos de árvores individuais leva à rede complexa. Experimentos foram realizados em 97 datasets de classificação e regressão rotulados, com variação nos níveis de ruído dos atributos e dos exemplos. Os resultados mostram que, para redes complexas geradas a partir de Random Forests, as métricas de peso de aresta unitário e out-of-bag apresentaram melhores resultados para datasets de classificação e regressão, respectivamente; as métricas de centralidade tiveram melhor desempenho em redes não orientadas, em geral. É possível concluir que a centralidade do autovetor e a importância dos atributos da Random Forest têm desempenho equivalente. Em outras palavras, não houve diferença estatisticamente significativa entre eles em todas, exceto em uma situação (com 40% de ruído nos exemplos para datasets de regressão), com nível de confiança de 95%.

Título em inglês

Ranking of attributes through random forests and centrality metrics in complex networks

Palavras-chave em inglês

Centrality measures
Complex networks
Feature ranking
Random forests

Resumo em inglês

In recent years, the volume of available data has rapidly increased, and datasets commonly end up with many irrelevant features which may disturb human understanding and even lead to poor machine learning models. It is possible to deal with that problem by sorting the features according to their relevancy, and if desirable, either a threshold or the best top-k strategy can be applied to reduce the number of features, keeping only the most relevant ones. This research addresses this problem and proposes a novel method that employs trees from a Random Forest to transform a dataset into a complex network to which centrality measures are applied to rank the features. The process represents each tree as a graph where all features in the Decision Tree are vertices, and the links within the nodes (father → child) of the tree are represented by a weighted edge between the two respective vertices. The union of all graphs from individual trees leads to the complex network. Experiments were performed in 97 labeled classification and regression datasets, with a variation in the feature and example noise levels. Results show that, for complex networks generated from Random Forests, the edge-weight metrics unitary and out-of-bag presented better results for classification and regression datasets, respectively; centrality measures had better performance in non-oriented networks, in general. It is possible to conclude that the eigenvector centrality and the Random Forest feature importance have equivalent performance. In other words, there was no statistically significant difference between them in all except one situation (at 40% noise in the examples for regression datasets), at 95% confidence level.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Dissertacao_Adriano_Henrique_Cantao_corrigida.pdf (2.20 Mbytes)

Data de Publicação

2022-12-12

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.