Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro

Zaccara, Rodrigo Constantin Ctenas

doi:10.11606/D.45.2012.tde-06092012-135831

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.45.2012.tde-06092012-135831

Document

Mémoire de Maîtrise

Auteur

Zaccara, Rodrigo Constantin Ctenas (Catálogo USP)

Nom complet

Rodrigo Constantin Ctenas Zaccara

Adresse Mail

Unité de l'USP

Instituto de Matemática e Estatística

Domain de Connaissance

Informatique

Date de Soutenance

2012-07-11

Editeur

São Paulo, 2012

Directeur

Finger, Marcelo (Catálogo USP)

Jury

Finger, Marcelo (Président)
Lejbman, Alfredo Goldman Vel
Rocha, Ricardo Luis de Azevedo da

Titre en portugais

Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro

Mots-clés en portugais

aprendizado de máquina.
córpus
entidade nomeada
índices invertidos
interface rica web
maximização de entropia
motor de anotação e classificação
uolcp2011
webcorpus

Resumé en portugais

O objetivo deste trabalho é desenvolver uma plataforma para anotação e classificação automática de entidades nomeadas para notícias escritas em português do Brasil. Para restringir um pouco o escopo do treinamento e análise foram utilizadas notícias esportivas do Campeonato Paulista de 2011 do portal UOL (Universo Online). O primeiro artefato desenvolvido desta plataforma foi a ferramenta WebCorpus. Esta tem como principal intuito facilitar o processo de adição de metainformações a palavras através do uso de uma interface rica web, elaborada para deixar o trabalho ágil e simples. Desta forma as entidades nomeadas das notícias são anotadas e classificadas manualmente. A base de dados foi alimentada pela ferramenta de aquisição e extração de conteúdo desenvolvida também para esta plataforma. O segundo artefato desenvolvido foi o córpus UOLCP2011 (UOL Campeonato Paulista 2011). Este córpus foi anotado e classificado manualmente através do uso da ferramenta WebCorpus utilizando sete tipos de entidades: pessoa, lugar, organização, time, campeonato, estádio e torcida. Para o desenvolvimento do motor de anotação e classificação automática de entidades nomeadas foram utilizadas três diferentes técnicas: maximização de entropia, índices invertidos e métodos de mesclagem das duas técnicas anteriores. Para cada uma destas foram executados três passos: desenvolvimento do algoritmo, treinamento utilizando técnicas de aprendizado de máquina e análise dos melhores resultados.

Titre en anglais

Automatic named entity recognition and classification for brazilian portuguese sport news

Mots-clés en anglais

classification tool
corpora
inverted index
machine learning
maximum entropy
named entity
uolcp2011
web rich interface
webcorpus

Resumé en anglais

The main target of this research is to develop an automatic named entity classification tool to sport news written in Brazilian Portuguese. To reduce this scope, during training and analysis only sport news about São Paulo Championship of 2011 written by UOL2 (Universo Online) was used. The first artefact developed was the WebCorpus tool, which aims to make easier the process of add meta informations to words, through a rich web interface. Using this, all the corpora news are tagged manually. The database used by this tool was fed by the crawler tool, also developed during this research. The second artefact developed was the corpora UOLCP2011 (UOL Campeonato Paulista 2011). This corpora was manually tagged using the WebCorpus tool. During this process, seven classification concepts were used: person, place, organization, team, championship, stadium and fans. To develop the automatic named entity classification tool, three different approaches were analysed: maximum entropy, inverted index and merge tecniques using both. Each approach had three steps: algorithm development, training using machine learning tecniques and best score analysis.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

RodrigoZaccara_dissertacao_mestrado.pdf (1.96 Mbytes)

Date de Publication

2012-09-10

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.