• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2017.tde-29082017-164102
Document
Auteur
Nom complet
Marcio Zeni Prosdocimo
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 1996
Directeur
Jury
Romero, Roseli Aparecida Francelin (Président)
Carvalho, André Carlos Ponce de Leon Ferreira de
Violaro, Fabio
Titre en portugais
SISTEMA PARA TRANSFORMAR TEXTO EM VOZ UTILIZANDOREDES NEURAIS PARA A LINGUA PORTUGUESA.
Mots-clés en portugais
Não disponível
Resumé en portugais
Neste trabalho, um sistema para transformar texto na língua portuguesa falado no Brasil em voz é, desenvolvido. O método adotado para a transformação é Texto-Fonema-Voz. Este método tem algumas vantagens: (i) ele cria uma Biblioteca de Voz (BV) para qualquer língua ou para todas, independentemente do mapeamento texto para fonemas; (ii) ele pode interconectar-se com outros sistemas que realizem tarefa semelhante. O uso do sistema Máquina Falante é muito diversificado. As pessoas podem usar facilmente os computadores, porque eles tornam-se mais interativos. A técnica utilizada para mapear texto para fonemas é as Redes Neurais Artificiais (RNA). O uso de RNA tem algumas vantagens sobre técnicas convencionais, como dicionário fonético: (i) a quantidade de informação armazenada pela RNA é menor que a quantidade de informação armazenada pelas outras técnicas; (ii) o usuário não necessita fazer manutenção para novas palavras; (iii) o Perceptron Multi-Camadas tem a característica de generalização. Para uma boa generalização, o conjunto de treinamento deve caracterizar todo o universo de discurso. Para a síntese, nós codificamos a, voz humana pela técnica Waveform. Esta técnica foi escolhida porque é simples e sua característica de qualidade é muito relevante. A BV é um conjunto de informações sobre como o processo de síntese produz fisicamente os fonemas ou grupos de fonemas. Cada arquivo da BV representa uma sílaba. A performance da rede utilizada é de aproximadamente 94% de acerto usando um conjunto de teste que foi construído com palavras diferentes das usadas no treinamento, que é considerado, na área, um bom índice de generalização.
Titre en anglais
A system for converting text in voice using neural networks for portuguese language
Mots-clés en anglais
Not available
Resumé en anglais
In this work, a system to translate Portuguese language text spoken in Brazil into speech is developed. The method adopted for translation is Text-Phoneme-Speech. This method has some advantages: (i) it creates a Speech Library (SL) for any language or for all, independently of text-to-phoneme mapping; (iÐ it can interlink with other systems which would do the same task. The use of the talker system - Máquina Falante - is very diversified. People can use easily the computers, because they become more interactive. The technique utilized to map text into phonemes has been the Artificial Neural Networks (ANN). The use of ANN has some advantages over conventional techniques - like phonetic dictionary: (i) the quantity of information stored by ANN is smaller than the quantity of information stored by other techniques; (ii) the user does not need to make maintenance for new words; (iiÐ Multi-Layer Perceptron has the generalization cha¡acteristic. For a good generalization, the training set must characterize all the universe of mapping. For synthesis, we codified the human speech by Waveform technique. This technique has been chosen because it is simple and its feature of quality is very relevant. The SL is a set of information about how a synthesis process physically produces phonemes or group of phonemes. Each file of SL represents a syllable. Net performance has been around 94% of correctness over a test set which was built with non-training words. This percentage is considerate a good generalization index.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2017-08-29
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.