Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.18.2010.tde-22122010-154505
Documento
Autor
Nome completo
Lianet Sepúlveda Torres
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2010
Orientador
Banca examinadora
Pereira, Jose Carlos (Presidente)
Aluisio, Sandra Maria
Joaquim, Marcelo Basilio
Título em português
Representações hierárquicas de vocábulos de lÃnguas indÃgenas brasileiras: modelos baseados em mistura de Gaussianas
Palavras-chave em português
Agrupamento hierárquico
Dendrograma
Divergência KL
LÃnguas indÃgenas
Mistura de gaussianas
Resumo em português
Apesar da ampla diversidade de lÃnguas indÃgenas no Brasil, poucas pesquisas estudam estas lÃnguas e suas relações. Inúmeros esforços têm sido dedicados a procurar similaridades entre as palavras das lÃnguas indÃgenas e classificá-las em famÃlias de lÃnguas. Seguindo a classificação mais aceita das lÃnguas indÃgenas do Brasil, esta pesquisa propõe comparar palavras de 10 lÃnguas indÃgenas brasileiras. Para isso, considera-se que estas palavras são sinais de fala e estima-se a função de distribuição de probabilidade (PDF) de cada palavra, usando um modelo de mistura de gaussianas (GMM). A PDF foi considerada um modelo para representar as palavras. Os modelos foram comparados utilizando medidas de distância para construir estruturas hierárquicas que evidenciaram possÃveis relações entre as palavras. Seguindo esta linha, a hipótese levantada nesta pesquisa é que as PDFs baseadas em GMM conseguem caracterizar as palavras das lÃnguas indÃgenas, permitindo o emprego de medidas de distância entre elas para estabelecer relações entre as palavras, de forma que tais relações confirmem algumas das classificações. Os parâmetros do GMM foram calculados utilizando o algoritmo Maximização da Expectância (em inglês, Expectation Maximization (EM)). A divergência Kullback Leibler (KL) foi empregada para medir semelhança entre as PDFs. Esta divergência serve de base para estabelecer as estruturas hierárquicas que ilustram as relações entre os modelos. A estimativa da PDF, baseada em GMM foi testada com o auxÃlio de sinais simulados, sendo possÃvel confirmar que os parâmetros obtidos são próximos dos originais. Foram implementadas várias medidas de distância para avaliar se a semelhança entre os modelos estavam determinadas pelos modelos e não pelas medidas adotadas neste estudo. Os resultados de todas as medidas foram similares, somente foi observada alguma diferença nos agrupamentos realizados pela distância C2, por isso foi proposta como complemento da divergência KL. Estes resultados sugerem que as relações entre os modelos dependem das suas caracterÃsticas, não das métricas de distância selecionadas no estudo e que as PDFs baseadas em GMM, conseguem fazer uma caracterização adequada das palavras. Em geral, foram observados agrupamentos entre palavras que pertenciam a lÃnguas de um mesmo tronco linguÃstico, assim como se observou uma tendência a incluir lÃnguas isoladas nos agrupamentos dos troncos linguÃsticos. Palavras que pertenciam a determinada lÃngua apresentaram um comportamento padrão, sendo identificadas por esse tipo de comportamento. Embora os resultados para as palavras das lÃnguas indÃgenas sejam inconclusivos, considera-se que o estudo foi útil para aumentar o conhecimento destas 10 lÃnguas estudadas, propondo novas linhas de pesquisas dedicadas à análise destas palavras.
Título em inglês
Hierarchical representations of words of brazilian indigenous languages: models based on Gaussian mixture
Palavras-chave em inglês
Dendogram
Gaussian mixture models
Hierarchical clustering
Indigenous languages
KL divergence
Resumo em inglês
Although there exists a large diversity of indigenous languages in Brazil, there are few researches on these languages and their relationships. Numerous efforts have been dedicated to search for similarities among words of indigenous languages to classify them into families. Following the most accepted classification of Brazilian indigenous languages, this research proposes to compare words of 10 Brazilian indigenous languages. The words of the indigenous languages are considered speech signals and the Probability Distribution Function (PDF) of each word was estimated using the Gaussian Mixture Models (GMM). This estimation was considered a model to represent each word. The models were compared using distance measures to construct hierarchical structures that illustrate possible relationships among words. The hypothesis in this research is that the estimation of the PDF, based on GMM can characterize the words of indigenous languages, allowing the use of distance measures between the PDFs to establish relationships among the words and confirm some of the classifications. The Expectation Maximization algorithm (EM) was implemented to estimate the parameters that describe the GMM. The Kullback Leibler (KL) divergence was used to measure similarities between two PDFs. This divergence is the basis to establish the hierarchical structures that show the relationships among the models. The PDF estimation, based on GMM was tested using simulated signals, allowing confirming the useful approximation of the original parameters. Several distance measures were implemented to prove that the similarities among the models depended on the model of each word, and not on the distance measure adopted in this study. The results of all measures were similar, however, as the clustering results of the C2 distances showed some differences from the other clusters, C2 distance was proposed to complement the KL divergence. The results suggest that the relationships between models depend on their characteristics, and not on the distance measures selected in this study, and the PDFs based on GMM can properly characterize the words. In general, relations among languages that belong to the same linguistic branch were illustrated, showing a tendency to include isolated languages in groups of languages that belong to the same linguistic branches. As the GMM of some language families presents a standard behavior, it allows identifying each family. Although the results of the words of indigenous languages are inconclusive, this study is considered very useful to increase the knowledge of these types of languages and to propose new research lines directed to analyze this type of signals.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2011-02-22