• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.8.2016.tde-19122016-100651
Document
Auteur
Nom complet
Bruno Ferrari Guide
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2016
Directeur
Jury
Ferreira, Marcelo Barra (Président)
Lee, Seung Hwa
Lopes, Marcos Fernando
Titre en portugais
Abordagem computacional para a questão do acento no português brasileiro
Mots-clés en portugais
Acento
Fonologia
Lingüística computacional
Probabilidade
Prosódia
Resumé en portugais
O objetivo central do projeto foi investigar a questão do acento no português brasileiro por meio do uso de ferramentas computacionais, a fim de encontrar possíveis relações entre traços segmentais, prosódicos ou morfológicos com o acento. Tal análise foi realizada a partir do estudo crítico das principais soluções propostas para a questão advindas da Fonologia Teórica. Isso foi considerado o primeiro passo para desenvolver uma abordagem que traga inovação para a área. A discussão teórica foi concluída com a implementação de algoritmos que representam modelizações das propostas para o tratamento da questão do acento. Estas foram, posteriormente, testadas em corpora relevantes do português com o objetivo de analisar tanto os casos considerados como padrão pelas propostas, quanto aqueles que são considerados exceções ao comportamento do idioma. Simultaneamente, foi desenvolvido um corpus anotado de palavras acentuadas do português brasileiro, a partir do qual foram implementados os dois grupos de modelos de natureza probabilística que formam o quadro de abordagens desenhado pelo projeto. O primeiro grupo se baseia na noção de N-gramas, em que a atribuição de acento a uma palavra ocorre a partir da probabilidade das cadeias de tamanho " que a compõem, configurando-se, assim, um modelo que enxerga padrões simples de coocorrência e que é computacionalmente eficiente. O segundo grupo de modelos foi chamado de classificador bayesiano ingênuo, que é uma abordagem probabilística mais sofisticada e exigente em termos de corpus e que leva em consideração um vetor de traços a serem definidos para, no caso, atribuir o acento de uma palavra. Esses traços englobaram tanto características morfológicas, quanto prosódicas e segmentais das palavras.
Titre en anglais
Computational approach for the matter of stress in Brazilian Portuguese
Mots-clés en anglais
Computational linguistics
Phonology
Probability
Prosodic
Stress
Resumé en anglais
The main goal of this project was to provide insight into the behavior of stress patterns of Brazilian Portuguese using computational tools in order to find eventual relationships between segmental, prosodic or morphologic features and word stress. Such analysis was based on a critical reading of some of the main proposals from theoretical phonology regarding the matter. This was considered the first step towards an innovative approach for this field of research. Such discussion was concluded by implementing algorithms representing models of the theoretical proposals for treating the behavior of stress. Afterward, those solutions were tested in relevant corpora of Portuguese aiming to analyze both the words which fell inside what was considered standard and the words that should be considered exceptions to the typical behavior in the language. Simultaneously, a noted corpus of Brazilian Portuguese words was compiled, from which were implemented both groups of models that have probabilistic nature that completes the frame of approaches drawn from this project. The first group is composed of models based on the notion of N-grams, in which the attribution of stress to a word happens based on the probability attributed to the `n' sized chains that compose this word, which results in a model that is sensitive to patterns of co-occurrence and computationally efficient. The second group of models is called Naive Bayes Classifier, which is a more sophisticated probabilistic approach that is more corpus demanding, this approach takes into account a vector of features that was defined in order to attribute stress to a word. Those features were morphological, prosodic and segmental characteristics of the words.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2016-12-19
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.