• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2021.tde-17032021-122717
Document
Auteur
Nom complet
Damares Crystina Oliveira de Resende
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2021
Directeur
Jury
Ponti, Moacir Antonelli (Président)
Levada, Alexandre Luis Magalhães
Mello, Rodrigo Fernandes de
Rossi, Andre Luís Debiaso
Titre en anglais
Robust image features creation by learning how to merge visual and semantic attributes
Mots-clés en anglais
Autoencoder
Feature learning
Image classification
Manifold learning
Resumé en anglais
There are known advantages of using semantic attributes to improve image representation. However, studying how to use such attributes to improve visual subspaces and its effects on coarse and fine-grained classification were still to be investigated. This research report a Visual-Semantic Encoder (VSE) built from a neural network undercomplete autoencoder, that combines visual features and semantic attributes to form a compact subspace containing each domains most relevant properties. It is observed empirically that a learned latent space can better represent image features and even allow one to interpret results in the light of the nature of semantic attributes, offering a path for explainable learning. Experiments were performed in four benchmark datasets where VSE was compared against state-of-the-art algorithms for dimensionality reduction. The algorithm shows to be robust for up to 20% degradation of semantic attributes and is as efficient as LLE for learning a low-dimensional feature space with rich class representativeness, offering possibilities for future work on the deployment of an automatic gathering of semantic data to improve representations. Additionally, the study suggests experimentally that adding high-level concepts to image representations adds linearity to the feature space, allowing PCA to perform well in combining visual and semantic features for enhancing class separability. At last, experiments were performed for zero-shot learning, where VSE and PCA outperform SAE, the state-of-the-art algorithm proposed by Kodirov, Xiang and Gong (2017), and JDL, the joint discriminative learning framework proposed by Zhang and Saligrama (2016), which demonstrates the viability of merging semantic and visual data at both training and test time for learning aspects that transcend class boundaries that allow the classification of unseen data.
Titre en portugais
Criando características de imagens robustas por meio do aprendizado da fusão de atributos visuais e semânticos
Mots-clés en portugais
Aprendizado de características
Aprendizado de variedades
Autoencoder
Classificação de imagens
Resumé en portugais
Existem vantagens conhecidas em usar atributos semânticos para melhorar a representação de imagens. No entanto, o estudo de como esses atributos melhoram subespaços visuais e os efeitos sobre a classificação de dados grosseiros e granulares ainda estava para ser investigado. Esta pesquisa reporta um Codificador Visual-Semântico (VSE) construído a partir de um autoencoder sub completo, formado por uma rede neural que combina características semânticas e visuais para formar um espaço compacto que contém as propriedades mais relevantes de cada domínio. É observado empiricamente que o espaço latente aprendido pode melhor representar as características de imagens e inclusive permite a interpretação dos resultados baseado na natureza dos atributos semânticos, oferecendo um caminho para a aprendizagem explicável. Os experimentos foram realizados em quatro bases de dados benchmark onde o VSE foi comparado com algoritmos do estado-da-arte para a redução de dimensionalidade. O algoritmo se mostra robusto para até 20% de degradação dos dados semânticos e é tão eficiente quanto o LLE para aprender um espaço de baixa dimensionalidade com rica representatividade, oferecendo possibilidades para trabalhos futuros na aplicação de um coletor automático de dados semânticos para melhorar as representações. Ademais, o estudo sugere experimentalmente que a inclusão de conceitos de alto nível à representação de imagens adiciona linearidade ao espaço de características, permitindo que o PCA tenha boa performance na combinação de propriedades visuais e semânticas para melhorar a separabilidade das classes. Por fim, experimentos foram realizados no âmbito de zero-shot learning, onde VSE e PCA superam SAE, o algoritmo estado-da-arte proposto por Kodirov, Xiang and Gong (2017), e JDL, o framework de aprendizado discriminativo conjunto proposto por Zhang and Saligrama (2016), o que demonstra a viabilidade da mesclagem de dados semânticos e visuais nas etapas de treino e teste para para aprender aspectos que transcendem as fronteiras de classes e permitem a classificação de dados desconhecidos.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2021-03-17
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2022. Tous droits réservés.