Classificação transdutiva em redes heterogêneas de informação, baseada na divergência KL

Romanetto, Luzia de Menezes

doi:10.11606/T.55.2020.tde-08062020-095905

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.55.2020.tde-08062020-095905

Documento

Tesis Doctoral

Autor

Romanetto, Luzia de Menezes (Catálogo USP)

Nombre completo

Luzia de Menezes Romanetto

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2020-02-11

Publicación

São Carlos, 2020

Director

Lopes, Alneu de Andrade (Catálogo USP)

Tribunal

Lopes, Alneu de Andrade (Presidente)
Júnior, João Roberto Bertini
Liang, Zhao
Macedo, Alessandra Alaniz

Título en portugués

Classificação transdutiva em redes heterogêneas de informação, baseada na divergência KL

Palabras clave en portugués

Classificação transdutiva
Divergência KL
Redes heterogêneas de informação

Resumen en portugués

A área de esquisa em Redes Heterogêneas de Informação (HIN) é um recente e proeminente tópico, especialmente quando consideramos que grande parte dos dados de mundo real possuem características heterogêneas. Tais dados, com topologias complexas como relações entre diferentes tipos de objetos, o que não é naturalmente representável pelas tradicionais redes homogêneas. Além disso, comparada com as pesquisas existentes em redes homogêneas ou mesmo em redes bipartidas, a área de pesquisa em HIN ainda permanece com diversos pontos inexplorados. Dentre estes, o desenvolvimento de métodos para a classificação transdutiva em HIN apresenta diversas possibilidades de desenvolvimento. Nesta tese foi proposto o método TCHN de classificação transdutiva de HIN. Tal método tem como diferencial a utilização da divergência KL como medida de similaridade para a regularização da propagação de informação pelos vetores de informação. Esta modelagem tem como motivação o fato de tal métrica ser mais apropriada para a regularização de distribuições de probabilidade, considerando que a distribuição de informação na rede tende a se comporta de tal maneira. Experimentos comprovam que o método TCHN produz resultados comparáveis ou até mesmo superiores aos métodos representativos da área, confirmando assim sua efetividade para a classificação em diversos cenários. Além disso, a complexidade do método TCHN para redes esparsas mostra-se bastante atrativa para a aplicação em dados de mundo real, que como já comentado possuem naturalmente características heterogêneas. Além do desenvolvimento do método TCHN, como parte das demandas da área que impactaram neste trabalho, foi desenvolvida uma ferramenta de geração de redes heterogêneas sintéticas, camada HNOC, em parceria com outros pesquisadores do grupo de pesquisa. Esta já se mostrou bastante útil para a validação do método TCHN, pois com seu uso, foi possível a comparação das técnicas em redes com diferentes características com um custo bastante reduzido se comparado com o possível custo de levantamento de redes semelhantes com base em dados reais.

Título en inglés

Transductive classification in heterogeneous information networks based on KL-divergence

Palabras clave en inglés

Heterogeneous information networks
KL-divergence
Transductive classification

Resumen en inglés

Heterogeneous Information Networks (HIN) is a promising and recent research topic, specially considering that much real world data are heterogeneous. Those data, with complex topology such as relation among different types of objects, are not naturally represented by usual homogeneous networks. Moreover, compared to existing research on homogeneous networks, or even on bipartite networks, HIN research field still presents many unexplored points. Among these, the development of methods for transductive classification in HIN presents several development possibilities. In this thesis we propose a new transductive classification method on HIN called TCHN. This method has as a differential the use of KL divergence as a similarity measure to regularize the information propagation through information vectors. This modeling is motivated by the fact that such metric is more appropriate for the regularization of probability distributions, considering that the information distribution in the network tends to behave in such a way. Experiments show the TCHN method produces results comparable or even superior to representative methods of the area, thus confirming its effectiveness for classification in different scenarios. Moreover, the complexity of the TCHN method for sparse networks is attractive for application to real world data, which as already discussed naturally have heterogeneous characteristics. In addition to the development of the TCHN method, as part of the demands of the area that impacted this work, it was developed a tool for synthetic heterogeneous network generation, this development was made in partnership with other researchers of our group. HNOC has already proved to be very useful in the validation of the TCHN method, with its use it was possible to compare the techniques in networks with different characteristics at a very low cost compared to the possible cost of surveying similar networks based on real data.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

LuziadeMenezesRomanetto.pdf (4.04 Mbytes)

Fecha de Publicación

2020-06-08

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.