• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.3.2022.tde-26072023-090438
Document
Auteur
Nom complet
Heitor Rodrigues Guimarães
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2022
Directeur
Jury
Ramirez, Miguel Arjona (Président)
Masiero, Bruno Sanches
Minami, Mario
Titre en portugais
Sobre auto-aprendizado de representações para realce da voz 3D.
Mots-clés en portugais
Aprendizado computacional
Aprendizado de representações
Aprendizado não supervisionado
Audio espacial
Processamento de voz
Realce da voz
Resumé en portugais
Métodos baseados em redes neurais profundas ganharam uma grande importância ao se mostrarem alternativas viáveis e poderosas para diversas tarefas, em especial para tarefas de processamento da voz, como reconhecimento de fala, detecção de palavras-chaves e reconhecimento de emoções. Entretanto esses métodos possuem alguns problemas intrínsecos, especialmente no que tange à robustez na presença de fatores deletérios, como ruídos e reverberação. Neste trabalho abordamos o problema de realce da voz, que tem como objetivo ser um sistema de pré-processamento capaz de realçar as características da voz e suprimir ruídos. Algoritmos baseados em modelos estatísticos abordam isto como um problema de maximização de verossimilhança. No entanto, não há garantias de que melhorará características perceptivas, como a inteligibilidade. Estudamos o uso de representações de fala extraídas do modelo wav2vec como função de custo perceptiva para a tarefa de realce da voz. Nossos experimentos demonstram que o uso de modelos de aprendizado contrastivo em funções de custo, para levar em conta características perceptivas, pode melhorar o desempenho do aprimoramento de fala em ambientes 3D. Além disso, discutimos o uso de modelos no domínio do tempo e do tempo-frequência. Nossos melhores resultados são obtidos através de modelos tempo-frequência, em detrimento do custo computacional.
Titre en anglais
On self-supervised representations for 3D speech enhancement.
Mots-clés en anglais
Representation learning
Spatial audio
Speech enhancement
Speech processing
Unsupervised learning
Resumé en anglais
Methods based on deep neural networks have gained significant importance by showing viable and robust alternatives for several tasks, especially for speech processing, such as speech recognition, keyword spotting, and emotion recognition. However, these methods have inherent problems, especially regarding the robustness to detrimental factors, such as noise and reverberation. In this work, we tackle the Speech Enhancement problem, a pre-processing system capable of emphasizing the speech signal while suppressing noises. Statistical-model-based algorithms approach this as a likelihood maximization problem. However, there are no guarantees that it will improve perceptual characteristics such as intelligibility. We study the usage of speech representations extracted from the wav2vec model as a perceptual loss function for the Speech Enhancement task. Our experiments demonstrate that using contrastive learning models to consider high-level perceptual features in loss functions can improve the performance of 3D Speech Enhancement. Moreover, we discuss the usage of models in the time and time-frequency domain. Our best results are obtained through time-frequency models, increasing the computational cost.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2023-07-31
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.