• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.55.2016.tde-30032016-110708
Documento
Autor
Nome completo
Lianet Sepúlveda Torres
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2015
Orientador
Banca examinadora
Aluisio, Sandra Maria (Presidente)
Feltrim, Valéria Delisandra
Rezende, Solange Oliveira
Tagnin, Stella Esther Ortweiler
Vale, Oto Araujo
Título em português
Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
Palavras-chave em português
Córpus de aprendizes
Ferramentas de suporte à escrita
Léxicos bilíngues
Português como segunda língua
Resumo em português
O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol.
Título em inglês
Scientific writing in portuguese by hispanic speaking: linguistic-computational resources based on alignments methods of parallel text
Palavras-chave em inglês
Bilingual lexicon
Learner corpora
Portuguese as a second language
Writing support tools
Resumo em inglês
In the last decade, as a result of Brazilian economic growth and the increased presence of multinationals in the country, the interest of foreigners in learning Portuguese rose. This fact is also noted by the number of students enrolled in the Portuguese proficiency exam, CELPE-Bras and the number of foreigner students entering at the Brazilian Universities. Most of these students are Spanish speakers and need to write the dissertation or thesis in Portuguese. The similarity between Portuguese and Spanish is considered as a positive element that often becomes an obstacle, because similarity and closeness frequently conceal differences and hinder learners from mastering the Portuguese, keeping interferences from their native Spanish both when speaking and writing in Portuguese. The largest number of this interference occurs at the lexical level. One alternative to deal with errors of second language learners is the use of computational post-edit tools and tools to support the writing process. However, the number of resources and tools available to help improve Portuguese writing as a foreign language is very small, unlike the scenario into English. This research proposed the creation of resources and writing support tools at the lexical level as a first step to improving the linguistic quality of the texts produced by Portuguese native Spanish. Corpus linguistics was used as a methodology to enable the learners error analysis. The writing support tools use bilingual lexicons compiled through translation techniques based on alignment parallel corpus. Given the insufficient number of errors previously annotated to support automatic error detection, this research proposed methods based on language model and artificial generation of errors. The generation of artificial errors introduced himself as an efficient method for predicting lexical errors of learners. The contributions obtained with the methodology based on automatic translation to generate written supports between similar languages, considering lexical error, extracted by the analysis of learners corpus, focus of this research are: (i) the theoretical point of view, the survey and quantification of the main problems caused by the Spanish marks, left in the academic texts written in Portuguese by native Spanish; (ii) the automatic generation of language resources point of view, bilingual lexicons of cognates and false cognates; bilingual lexicon of discourse markers; bilingual lexicon of formulaic expressions that appear in scientific texts and bilingual lexicon of verbs related to scientific research in Portuguese and, (iii) the point of view of creating subsidies for the area of support scientific writing, design and evaluation of aid to support scientific writing in Portuguese by native Spanish speakers.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2016-03-30
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.