• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.45.2020.tde-17022021-201043
Documento
Autor
Nombre completo
Nicolas Silverio Figueiredo
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2020
Director
Tribunal
Queiroz, Marcelo Gomes de (Presidente)
Benetos, Emmanouil
Tavares, Tiago Fernandes
Título en inglés
Efficient adaptive multiresolution representation of music signals
Palabras clave en inglés
Adaptive representation
Automatic music transcription
Multiresolution representation
Sound and music computing
Resumen en inglés
The inherent trade-off between time and frequency resolutions, which exists in conventional transforms (such as the Discrete Fourier Transform) may be a hindrance for the representation of music signals, since these transforms are incapable of simultaneously locating percussive events with precision in time and melodic events with precision in frequency. Adaptive representations intend to address this limitation by varying the analysis window size used in sub-regions of the time-frequency plane (TFP), and can be used as input representations in algorithms for automatic music transcription, source separation and musical expressiveness analysis. The main objective of the presented work is the development of an efficient adaptive transform, that serves as a counterpoint to traditional algorithms based on the combination of precomputed representations with different resolutions. The proposed Iteratively Refined Multi\-resolution Spectro\-gram (IRMS) works by performing successive refinements on top of an initial low frequency resolution spectrogram, located in the areas of the TFP that contain musical information such as notes, harmonics and expressive elements. Its development is built on the investigation of musical information estimators and sub-band processing techniques that allow the efficient computation of high resolution representations within isolated subregions of the TFP. As an investigation of sub-band processing algorithms for this task, a GUI application was built for the detailed high-resolution visualization of specific areas of a spectrogram. A comparative experiment between different musical information estimators was conducted, with good results for Shannon and Rényi entropies. This work also presents technical details on the integration between the detection of musically relevant subregions and their refinement via sub-band processing, that defines our final implementation of the IRMS. As an evaluation of the final solution, a comparative experiment based on computing cost between different time-frequency representations was conducted. The IRMS achieved execution times orders of magnitude faster than the other evaluated adaptive representations, and in some configurations presented a competitive computational cost with respect to the STFT and CQT, thus validating our proposal of an efficient alternative for adaptive representations.
Título en portugués
Representação eficiente adaptativa multiresolução de sinais musicais
Palabras clave en portugués
Computação sonora e musical
Representação adaptativa
Representação multi-resolução
Transcrição automática de música
Resumen en portugués
A inerente troca entre resolução no tempo e na frequência de transformadas convencionais (como a Transformada Discreta de Fourier) pode ser um inconveniente na representação de sinais musicais, já que tais transformadas são incapazes de localizar simultaneamente eventos percussivos com precisão no tempo e eventos melódicos com precisão na frequência. Representações adaptativas buscam contornar essa limitação variando o tamanho da janela de análise utilizada em cada região do plano tempo-frequência, e possuem aplicações como entrada para algoritmos automáticos de transcrição de música, separação de fontes e análise de expressividade musical. O projeto apresentado tem como objetivo principal o desenvolvimento de uma representação adaptativa de baixo custo computacional, cuja estrutura se opõe à tradicional combinação de representações de diferentes resoluções pré-computadas. O proposto Iteratively Refined Multi\-resolution Spectrogram (IRMS) funciona a partir de refinamentos sucessivos em cima de um espectro\-grama inicial de baixa resolução de frequência, localizados nas áreas do plano tempo-frequência nas quais existe informação musical como notas, harmônicos e elementos expressivos. Seu desenvolvimento passa pela investigação de estimadores de informação musical e técnicas de processamento em sub-bandas que permitam uma computação eficiente de representações em alta resolução de regiões isoladas do plano tempo-frequência. Para a investigação de algoritmos de processamento em sub-bandas para essa finalidade, foi desenvolvida uma aplicação que permite a visualização em alta resolução de áreas específicas de um espectrograma. Um experimento comparativo entre diferentes estimadores de informação musical foi conduzido, com bons resultados para as entropias de Shannon e Rényi. Também são apresentados detalhes técnicos sobre a integração entre detecção de subregiões musicais e seu refinamento via processamento em sub-bandas, que dá origem à implementação final da IRMS. Como avaliação da solução, um experimento final comparativo baseado em custo computacional entre diferentes representações no plano tempo-frequência foi realizado. A IRMS alcançou tempos de execução ordens de magnitude menor do que as outras representações adaptativas avaliadas, e em algumas configurações apresentou custo computacional competitivo em relação à CQT e à STFT, validando a nossa proposta de uma alternativa eficiente para representações adaptativas.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
monografia_final.pdf (24.75 Mbytes)
Fecha de Publicación
2021-02-18
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.