• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
10.11606/D.3.2016.tde-21062016-133050
Document
Auteur
Nom complet
Eduardo Marcel Maçan
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2015
Directeur
Jury
Gomi, Edson Satoshi (Président)
Medeiros, Claudia Maria Bauzer
Rocha, Ricardo Luis de Azevedo da
Titre en portugais
GEOFIER: um sistema de anotação geográfica de textos com o uso de classificadores de aprendizagem de máquina.
Mots-clés en portugais
Anotação geográfica
Aprendizagem computacional
Classificação automática de texto
Gazetteers
Geotagging
Hierarquias de classificadores de texto
Inteligência artificial
Mineração de dados
Topônímia
Resumé en portugais
A anotação geográfica de documentos consiste na adoção de metadados para a identificação de nomes de locais e a posição de suas ocorrências no texto. Esta informação é útil, por exemplo, para mecanismos de busca. A partir dos topônimos mencionados no texto é possível identificar o contexto espacial em que o assunto do texto está inserido, o que permite agrupar documentos que se refiram a um mesmo contexto, atribuindo ao documento um escopo geográfico. Esta Dissertação de Mestrado apresenta um novo método, batizado de Geofier, para determinação do escopo geográfico de documentos. A novidade apresentada pelo Geofier é a possibilidade da identificação do escopo geográfico de um documento por meio de classificadores de aprendizagem de máquina treinados sem o uso de um gazetteer e sem premissas quanto à língua dos textos analisados. A Wikipédia foi utilizada como fonte de um conjunto de documentos anotados geograficamente para o treinamento de uma hierarquia de Classificadores Naive Bayes e Support Vector Machines (SVMs). Uma comparação de desempenho entre o Geofier e uma reimplementação do sistema Web-a-Where foi realizada em relação à determinação do escopo geográfico dos textos da Wikipédia. A hierarquia do Geofier foi treinada e avaliada de duas formas: usando topônimos do mesmo gazetteer que o Web-a-Where e usando n-gramas extraídos dos documentos de treinamento. Como resultado, o Geofier manteve desempenho superior ao obtido pela reimplementação do Web-a-Where.
Titre en anglais
GEOFIER: a geotagging system based on machine learning text classifiers.
Mots-clés en anglais
Automatic text classifiers
Gazetteers
Geotagging
Hierarchy of text classifiers
Toponym ambiguity
Resumé en anglais
Automatic text geotagging is the process by which mentions of place names and their positions in text are identified as metadata, allowing this information to be used by specialized applications, like Search Engines. It is possible to identify the geographic scope of a document by analysing the toponyms it mentions and then group documents by their geographic context, effectively adding a geographic scope to the documents. This dissertation presents a new method to identify the geographic scope of text, named Geofier. The novelty in Geofier is that it uses machine learning text classifiers, trained without the need of a gazetteer and without making assumptions regarding the language in which the documents are written. Wikipedia was used as the source for a geotagged text dataset in order to train a hierarchy of Naive Bayes and Support Vector Machine (SVM) classifiers. The Geofier hierarchy was then trained and evaluated, first using toponyms from the same gazetteer as Web-a-Where and then using n-grams extracted from the training samples as attributes. Geofier performed significantly better when compared to a Web-a-Where implementation.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2016-07-06
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2021. Tous droits réservés.