Tempo estimation via self-supervised learning

Morais, Giovana Vieira de

doi:10.11606/D.45.2023.tde-01042024-142309

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.45.2023.tde-01042024-142309

Documento

Dissertação de Mestrado

Autor

Morais, Giovana Vieira de (Catálogo USP)

Nome completo

Giovana Vieira de Morais

Unidade da USP

Instituto de Matemática e Estatística

Área do Conhecimento

Ciência da Computação

Data de Defesa

2023-08-17

Imprenta

São Paulo, 2023

Orientador

Queiroz, Marcelo Gomes de (Catálogo USP)

Banca examinadora

Queiroz, Marcelo Gomes de (Presidente)
Fuentes, Magdalena
Silva, Diego Furtado

Título em inglês

Tempo estimation via self-supervised learning

Palavras-chave em inglês

Self-supervised learning
Tempo estimation

Resumo em inglês

Self-supervision methods learn representations by solving pretext tasks that do not require human-generated labels, alleviating the need for time-consuming annotations. These methods have been applied in computer vision, natural language processing, environmental sound analysis, and recently in music information retrieval, e.g. for pitch estimation. Particularly in the context of music, there are few insights about the fragility of these models regarding different distributions of data, and how they could be mitigated. In this work, we explore these questions by analyzing a self-supervised model for pitch estimation that we adapted for tempo estimation via rigorous experimentation with synthetic data and contrasting its behavior with real data. We discuss the design choices regarding the method and the input representation. Finally, we study the relationship between the input representation and data distribution for self-supervised tempo estimation.

Título em português

Estimação de andamento via self-supervised learning

Palavras-chave em português

Estimação de andamento
Self-supervised learning

Resumo em português

Métodos auto-supervisionados (self-supervised) aprendem representações de dados por meio da resolução de tarefas de pretexto (pretext tasks) que não necessitam de rótulos gerados por humanos, diminuindo a necessidade de dados anotados para o treinamento dos modelos. Esses métodos foram aplicados em problemas de visão computacional, processamento de linguagem natural, análise de som ambiente, e, recentemente, em recuperação de informação musical. Particularmente no contexto da música, existem poucos insights sobre a fragilidade desses modelos no que diz respeito à diferentes distribuições de dados e como elas podem ser mitigadas. Nesse trabalho, exploramos essas questões ao dissecar um modelo auto-supervisionado, que foi adaptado da estimação de pitch para a estimação de andamento, por meio de uma exploração rigorosa com dados sintéticos, cujo desempenho foi comparado ao uso de dados reais. Discutimos as escolhas de design a respeito do método e das representações dos dados de entrada. Finalmente, estudamos a relação entre a representação de entrada e a distribuição dos dados para a estimação de andamento.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Tese_GiovanaVMorais.pdf (5.26 Mbytes)

Data de Publicação

2024-04-01

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.