Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso

Ishizawa, William Habaro

doi:10.11606/D.76.2015.tde-16042015-104351

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.76.2015.tde-16042015-104351

Documento

Dissertação de Mestrado

Autor

Ishizawa, William Habaro (Catálogo USP)

Nome completo

William Habaro Ishizawa

E-mail

Unidade da USP

Instituto de Física de São Carlos

Área do Conhecimento

Física Aplicada

Data de Defesa

2015-02-19

Imprenta

São Carlos, 2015

Orientador

Guido, Rodrigo Capobianco (Catálogo USP)

Banca examinadora

Guido, Rodrigo Capobianco (Presidente)
Carlson Filho, Carlos Magnus
Yehia, Hani Camille

Título em português

Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso

Palavras-chave em português

Acústica
Escala Bark
Processamento de sinais
Reconhecimento de locutor

Resumo em português

Atualmente, diversos trabalhos e aplicações são desenvolvidos com foco na área de reconhecimento computacional de locutores. À medida que o interesse por diversas aplicações reais dentro dessa área emerge, principalmente em biometria, na qual a segurança e a eficácia são de extrema importância, torna-se cada vez mais necessário que estudos sejam feitos, na mesma proporção, visando avaliá-las. Desse modo, a proposta do presente trabalho é a de mensurar a acurácia de um sistema de reconhecimento de locutores baseado em características elementares, isto é, energias de sub-bandas de frequências, em associação com um classificador probabilístico, estudando a viabilidade de extraí-las das transições entre trechos vozeados e não-vozeados (TTVNV) dos sinais. Testes são realizados com diferentes quantidades de locutores e discurso fixado. A acurácia obtida nos testes variam de 20.18% a 92.53%. Os resultados obtidos são comparados e relatados, complementando as afirmações existentes na literatura sobre o uso das TTVNV com dados quantitativos.

Título em inglês

Analysis of energy cocentrations in the threshold between voiced and unvoiced phonemes and their implications for text-dependent speaker recognition

Palavras-chave em inglês

Acoustics
Bark scale
Signal processing
Speaker recognition

Resumo em inglês

Nowadays, many works and applications are developed focusing on computational speaker recognition. As the interest for several real applications within this area emerges, especially in biometrics, where the safety and the efficacy of the applications are extremely important, studies need to be developed in the same proportion, to evaluate the effectiveness of such approaches. Based on that, this work intends to measure the accuracy of a speaker recognition system that uses elementar features, i.e., sub-band frequency energies, associated with a probabilistic classifier, studying the viability of extracting them from the transition between voiced and unvoiced speech tags (TTVNV). Tests are carried out with different numbers of speakers and a text-dependent approach. The accuracy of the tests varies from 20.18% to 92.53%. The results are compared and reported, complementing the existent information on the use of TTVNV with quantitative data.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

WilliamHabaroIshizawa_ME_corrigida.pdf (15.33 Mbytes)

Data de Publicação

2015-04-22

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.