• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.45.2023.tde-01042024-142309
Document
Auteur
Nom complet
Giovana Vieira de Morais
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2023
Directeur
Jury
Queiroz, Marcelo Gomes de (Président)
Fuentes, Magdalena
Silva, Diego Furtado
Titre en anglais
Tempo estimation via self-supervised learning
Mots-clés en anglais
Self-supervised learning
Tempo estimation
Resumé en anglais
Self-supervision methods learn representations by solving pretext tasks that do not require human-generated labels, alleviating the need for time-consuming annotations. These methods have been applied in computer vision, natural language processing, environmental sound analysis, and recently in music information retrieval, e.g. for pitch estimation. Particularly in the context of music, there are few insights about the fragility of these models regarding different distributions of data, and how they could be mitigated. In this work, we explore these questions by analyzing a self-supervised model for pitch estimation that we adapted for tempo estimation via rigorous experimentation with synthetic data and contrasting its behavior with real data. We discuss the design choices regarding the method and the input representation. Finally, we study the relationship between the input representation and data distribution for self-supervised tempo estimation.
Titre en portugais
Estimação de andamento via self-supervised learning
Mots-clés en portugais
Estimação de andamento
Self-supervised learning
Resumé en portugais
Métodos auto-supervisionados (self-supervised) aprendem representações de dados por meio da resolução de tarefas de pretexto (pretext tasks) que não necessitam de rótulos gerados por humanos, diminuindo a necessidade de dados anotados para o treinamento dos modelos. Esses métodos foram aplicados em problemas de visão computacional, processamento de linguagem natural, análise de som ambiente, e, recentemente, em recuperação de informação musical. Particularmente no contexto da música, existem poucos insights sobre a fragilidade desses modelos no que diz respeito à diferentes distribuições de dados e como elas podem ser mitigadas. Nesse trabalho, exploramos essas questões ao dissecar um modelo auto-supervisionado, que foi adaptado da estimação de pitch para a estimação de andamento, por meio de uma exploração rigorosa com dados sintéticos, cujo desempenho foi comparado ao uso de dados reais. Discutimos as escolhas de design a respeito do método e das representações dos dados de entrada. Finalmente, estudamos a relação entre a representação de entrada e a distribuição dos dados para a estimação de andamento.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2024-04-01
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.