• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2022.tde-16022023-172628
Document
Auteur
Nom complet
Ricardo Brigato Scheicher
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2022
Directeur
Jury
Rezende, Solange Oliveira (Président)
Marcacini, Ricardo Marcondes
Moura, Maria Fernanda
Santos, Marilde Terezinha Prado
Titre en portugais
Classificação semanticamente enriquecida por expressões do domínio
Mots-clés en portugais
Classificação semântica de textos
Extração de termos
Mineração de textos
Representação semântica de textos
Resumé en portugais
Com o aumento da quantidade e variedade de textos em formato digital, seja em redes sociais, web ou internamente nas organizações, as técnicas de Mineração de Textos tornam-se essenciais no apoio à extração e organização desse conhecimento. Em tarefas de classificação de documentos, a representação dos dados tem um alto impacto na qualidade da solução final e modelos tradicionais de representação textual, como a Bag-of-Words (BoW), limitam-se apenas ao léxico impossibilitando a distinção de documentos com vocabulário semelhante e ideias diferentes sobre um mesmo assunto. Problemas de diferentes níveis de complexidade semântica possuem determinadas características que influenciam diretamente no desempenho de tarefas de classificação. Nesse sentido, o uso de informações emanticamente mais ricas em conjunto com a representação tradicional BoW permite atingir resultados mais eficazes em tarefas de Mineração de Textos. Expressões do domínio são consideradas informações enriquecidas que carregam consigo um certo nível semântico. A representação generalized of Expressions of Domain (BoED) é construída a partir e listas de termos do domínio e identificadores de classe, que geram as expressões do domínio e pode ser aplicada em diversas áreas do conhecimento como forma de informação semanticamente enriquecida. Com o propósito geral de avançar as pesquisas na área de Mineração de Textos e melhorar resultados de classificação de nível semâmantico usando informações enriquecidas, nesta tese de doutorado foram desenvolvidas e a avaliadas as seguintes abordagens: (i) proposta de três diferentes versões das representações enriquecidas semanticamente gBoED, (ii) método de classificação semanticamente enriquecida por expressões do domínio, (iii) método semiautomático de extração de termos e construção de representação semântica baseado em regras morfossintáticas, (iv) método semiautomático de extração de termos baseado em modelos de linguagem BERT, (v) estudo de caso de classificação semântica em pedidos de acesso à informação. Os métodos foram desenvolvidos e avaliados em dez coleções de documentos diferentes, em idioma português e inglês, juntamente com as diferentes versões de representações semanticamente enriquecidas. Os resultados indicam que os métodos propostos são promissores, possibilitando melhorar a acurácia de tarefas de classificação semântica em domínio restrito, quando comparada aos resultados com o método tradicional BoW.
Titre en anglais
Semantically enriched classification by domain expressions
Mots-clés en anglais
Terms extraction
Text mining
Text semantic classification
Text semantic representation
Resumé en anglais
With the increase in the amount and variety of texts in digital format, even on social networks, web, or in organizations, Text Mining techniques become essential to support the extraction of knowledge. In document classification tasks, data representation has a high impact on the quality of the final solution, and traditional models of textual representation, such as Bag-of-Words (BoW), are limited only to the lexicon making it impossible to the definition of documents with risk and different ideas on the same subject. Problems of different levels of semantic complexity have certain characteristics that directly influence the classification tasks performance. In this sense, the semantically richer use of information in conjunction with a BoW representation allows for achieving more effective results in Text Mining tasks. Domain expressions are a type of enriched information that carries with it a certain semantic level. The generalized of Expressions of Domain (BoED) representation is built from domain terms lists and class identifiers lists, which generate domain expressions and can be applied in several areas of knowledge as a form of semantically enriched information. With the general purpose of advancing semanticlevel Text Mining research and improving semantic-level classification results, this thesis has been developed and evaluated the following approaches: (i) Purpose of different versions of the semantically enriched representations gBoED, (ii) semantically enriched classification method by domain expressions, (iii) semiautomatic method of terms extraction and semantic representation construction based on morphosyntactic rules, (iv) semiautomatic method of terms extraction based on BERT language models, (v) case study of semantic classification in requests of access to information. The methods were developed and included in ten different document collections, in Portuguese and English, which can be presented as different versions of the semantically enriched representations. The results indicate that the purposed method is promising, improving accuracy results in semantic classification tasks when compared to the traditional method BoW.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2023-02-16
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.