Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.

Antunes Júnior, Irineu

doi:10.11606/T.3.2006.tde-05092006-103643

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.3.2006.tde-05092006-103643

Documento

Tese de Doutorado

Autor

Antunes Júnior, Irineu (Catálogo USP)

Nome completo

Irineu Antunes Júnior

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Sistemas Eletrônicos

Data de Defesa

2006-04-24

Imprenta

São Paulo, 2006

Orientador

Burt, Phillip Mark Seymour (Catálogo USP)

Banca examinadora

Burt, Phillip Mark Seymour (Presidente)
Baccala, Luiz Antonio
Iano, Yuzo
Silva, Magno Teófilo Madeira da
Trintinalia, Luiz Cezar

Título em português

Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.

Palavras-chave em português

estimação não-paramétrica
processamento digital de voz
redução de ruído em sinal de voz

Resumo em português

Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o ruído musical" produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de thresholding" concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (Additive, White, and Gaussian Noise"). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de Soft" ou Hard-thresholding", as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral).

Título em inglês

Speech denoising by softsoft thresholding.

Palavras-chave em inglês

digital speech processing
non-parametric speech signal estimation
speech denoising

Resumo em inglês

Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (musical noise") produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Fichacat.doc (19.00 Kbytes)

IrineuAntunesJunior.pdf (1.30 Mbytes)

Data de Publicação

2006-09-13

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.