Linguística e computação em diálogo para análise de textos e criação de atividades de leitura em língua inglesa

Moreira Filho, José Lopes

doi:10.11606/T.8.2015.tde-16092015-172528

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.8.2015.tde-16092015-172528

Documento

Tese de Doutorado

Autor

Moreira Filho, José Lopes (Catálogo USP)

Nome completo

José Lopes Moreira Filho

E-mail

Unidade da USP

Faculdade de Filosofia, Letras e Ciências Humanas

Área do Conhecimento

Semiótica e Lingüística Geral

Data de Defesa

2015-05-06

Imprenta

São Paulo, 2015

Orientador

Zapparoli, Zilda Maria (Catálogo USP)
José Neto, João - (Coorientador) (Catálogo USP)

Banca examinadora

Zapparoli, Zilda Maria (Presidente)
Gaspar, Neide Ferreira
José Neto, João
Pardo, Thiago Alexandre Salgueiro
Ramos, Rosinda de Castro Guerra

Título em português

Linguística e computação em diálogo para análise de textos e criação de atividades de leitura em língua inglesa

Palavras-chave em português

Aprendizado de máquina
Ensino de línguas
Leitura
Linguística de corpus
Processamento de línguas naturais

Resumo em português

A coleta e a exploração de corpora para a criação de atividades é um tema cada vez mais recorrente, uma vez que a prática visa a garantir materiais de ensino que privilegiam a língua em uso. A disponibilidade de instrumentação computacional para análise de corpora é enorme, assim como o seu potencial para o ensino de línguas. Apesar dos benefícios, o uso desses recursos ainda não é uma realidade para a maioria dos professores, principalmente fora do contexto acadêmico. Nesta tese, desenvolve-se um sistema de análise de textos e corpora e de criação automática de atividades de leitura e ensino de léxico-gramática em língua inglesa, com base na investigação das possibilidades de construção e exploração de corpora da Linguística de Corpus em diálogo com métodos e ferramentas de trabalho das áreas do Processamento de Línguas Naturais e Aprendizado de Máquina. Os objetivos da pesquisa estão relacionados a um estudo inicial que teve como produto final um software desktop para a preparação semiautomática de atividades de leitura em inglês, segundo o conceito de atividade-padrão, para facilitar a produção de materiais baseados em corpora. A proposta da tese concentra-se na automatização das análises linguísticas para a criação automática de atividades de ensino. Para tanto, a linguagem de programação Python, com a biblioteca Natural Language Toolkit (NLTK), foi utilizada na construção de módulos de análise de texto e corpora. Os principais corpora foram: a. o corpus de referência British National Corpus (BNC); b. o corpus de referência Floresta Sinta(c)tica do NLTK; c. o corpus de referência MacMorpho do NLTK; d. um corpus de estudo/treinamento com 135 textos de anúncios de emprego em inglês da Internet; e. um corpus de estudo/treinamento com 771 textos de divulgação científica das revistas eletrônicas Scientific American e NewScientist. A partir das análises automáticas programadas, foram criados modelos em XML, que extraem informações de texto e corpus para a criação de atividades. Uma interface gráfica foi desenhada para implementação do sistema, por meio das linguagens PHP, JavaScript, HTML e CSS, e disponibilizada online para a avaliação de possíveis usuários finais. A análise das avaliações mostrou-se positiva tanto em relação a aspectos da interface quanto a informações geradas pelo sistema. Os resultados obtidos no trabalho são significativos, pois sugerem que o sistema proposto, que permite a automatização de análises de texto e corpora para a criação automática de atividades didáticas de leitura e ensino de léxico-gramática em língua inglesa, apresenta um diferencial em relação a ferramentas disponíveis para análise de textos: fornece análises mais apuradas para a tarefa de elaboração de atividades didáticas, quando comparado, por exemplo, a programas como concordanciadores. Dentre as contribuições do trabalho, destacam-se o percurso do desenvolvimento do sistema como parte integrante da pesquisa, o diálogo entre as Humanidades a Linguística e a Língua Inglesa e as Ciências Exatas a Computação, com o Processamento de Línguas Naturais e o Aprendizado de Máquina , e a automatização de tarefas de análise de textos para fins de criação de materiais pedagógicos para o ensino de línguas.

Título em inglês

Dialogue between linguistics and computing to analyze texts and create reading activities in English

Palavras-chave em inglês

Corpus linguistics
Language teaching
Machine learning
Natural language processing
Reading

Resumo em inglês

Collecting and analyzing corpora in order to create activities is a topic that has risen by leaps and bounds, since practice is aimed at ensuring that the teaching material is focused on the language currently in use. There is a great amount of computer devices available for corpora analysis, and its potential for teaching languages is evident. Even though they present huge benefits, most of the teachers do not take advantage of these resources yet, chiefly when they do not take part in the academic environment. Through this thesis, a system for analysis of text and corpora and automatic creation of reading and English lexical-grammar teaching activities is developed, based on the investigation of possible ways of collecting and analyzing corpora from Corpus Linguistics, in partnership with methods and working tools related to Natural Language Processing and Machine Learning. The purpose for this research is related to an initial study that resulted in a desktop software that semi-automatically prepares reading activities in English, based on the standard-activity concept, in order to facilitate the creation of corpora-based material. This thesis puts forward the automatization of linguistic analyses so that teaching activities may be created automatically. For this purpose, the programming language Python, together with the Natural Language Toolkit (NLTK) library, was used for the creation of text-analysis and corpora modules. The main corpora used were: a. British National Corpus (BNC) reference corpus; b. Floresta Sinta(c)tica reference corpus from NLTK; c. MacMorpho reference corpus from NLTK; d. a study/training corpus with 135 texts of job announcements in English taken from the Internet; e. a study/training corpus with 771 texts of scientific disclosure of the following e-magazines: Scientific American and NewScientist. As from the scheduled automatic analyses, some XML models were created; they gather information about texts and corpus in order to create activities. A graphic interface was designed with the purpose of implementing the system by means of PHP, JavaScript, HTML and CSS languages and made available online, so that it could be evaluated by potential final users. The evaluations analysis had a positive outcome, both in relation to interface aspects and information provided by the system. The outcome of this work is meaningful, since this new system, which allows for the automatization of text and corpora analyses in order to create reading and English lexical-grammar activities, has a differential with regard to the tools available to analyze texts: it allows for more accurate analyses for the task of creating teaching activities, when it is compared, for instance, to softwares such as the concordance ones. Among the contributions to this work, it is important to highlight the system development process as an integral part of the research, the dialog between the Humanities Linguistics and English language and the Exact Sciences Computing, with the Natural Language Processing and the Machine Learning , as well as the automatization of text-analysis tasks in order to create teaching material for language teaching.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

2015_JoseLopesMoreiraFilho_VCorr.pdf (4.92 Mbytes)

Data de Publicação

2015-09-16

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.