• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.55.2022.tde-16022023-172628
Documento
Autor
Nombre completo
Ricardo Brigato Scheicher
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2022
Director
Tribunal
Rezende, Solange Oliveira (Presidente)
Marcacini, Ricardo Marcondes
Moura, Maria Fernanda
Santos, Marilde Terezinha Prado
Título en portugués
Classificação semanticamente enriquecida por expressões do domínio
Palabras clave en portugués
Classificação semântica de textos
Extração de termos
Mineração de textos
Representação semântica de textos
Resumen en portugués
Com o aumento da quantidade e variedade de textos em formato digital, seja em redes sociais, web ou internamente nas organizações, as técnicas de Mineração de Textos tornam-se essenciais no apoio à extração e organização desse conhecimento. Em tarefas de classificação de documentos, a representação dos dados tem um alto impacto na qualidade da solução final e modelos tradicionais de representação textual, como a Bag-of-Words (BoW), limitam-se apenas ao léxico impossibilitando a distinção de documentos com vocabulário semelhante e ideias diferentes sobre um mesmo assunto. Problemas de diferentes níveis de complexidade semântica possuem determinadas características que influenciam diretamente no desempenho de tarefas de classificação. Nesse sentido, o uso de informações emanticamente mais ricas em conjunto com a representação tradicional BoW permite atingir resultados mais eficazes em tarefas de Mineração de Textos. Expressões do domínio são consideradas informações enriquecidas que carregam consigo um certo nível semântico. A representação generalized of Expressions of Domain (BoED) é construída a partir e listas de termos do domínio e identificadores de classe, que geram as expressões do domínio e pode ser aplicada em diversas áreas do conhecimento como forma de informação semanticamente enriquecida. Com o propósito geral de avançar as pesquisas na área de Mineração de Textos e melhorar resultados de classificação de nível semâmantico usando informações enriquecidas, nesta tese de doutorado foram desenvolvidas e a avaliadas as seguintes abordagens: (i) proposta de três diferentes versões das representações enriquecidas semanticamente gBoED, (ii) método de classificação semanticamente enriquecida por expressões do domínio, (iii) método semiautomático de extração de termos e construção de representação semântica baseado em regras morfossintáticas, (iv) método semiautomático de extração de termos baseado em modelos de linguagem BERT, (v) estudo de caso de classificação semântica em pedidos de acesso à informação. Os métodos foram desenvolvidos e avaliados em dez coleções de documentos diferentes, em idioma português e inglês, juntamente com as diferentes versões de representações semanticamente enriquecidas. Os resultados indicam que os métodos propostos são promissores, possibilitando melhorar a acurácia de tarefas de classificação semântica em domínio restrito, quando comparada aos resultados com o método tradicional BoW.
Título en inglés
Semantically enriched classification by domain expressions
Palabras clave en inglés
Terms extraction
Text mining
Text semantic classification
Text semantic representation
Resumen en inglés
With the increase in the amount and variety of texts in digital format, even on social networks, web, or in organizations, Text Mining techniques become essential to support the extraction of knowledge. In document classification tasks, data representation has a high impact on the quality of the final solution, and traditional models of textual representation, such as Bag-of-Words (BoW), are limited only to the lexicon making it impossible to the definition of documents with risk and different ideas on the same subject. Problems of different levels of semantic complexity have certain characteristics that directly influence the classification tasks performance. In this sense, the semantically richer use of information in conjunction with a BoW representation allows for achieving more effective results in Text Mining tasks. Domain expressions are a type of enriched information that carries with it a certain semantic level. The generalized of Expressions of Domain (BoED) representation is built from domain terms lists and class identifiers lists, which generate domain expressions and can be applied in several areas of knowledge as a form of semantically enriched information. With the general purpose of advancing semanticlevel Text Mining research and improving semantic-level classification results, this thesis has been developed and evaluated the following approaches: (i) Purpose of different versions of the semantically enriched representations gBoED, (ii) semantically enriched classification method by domain expressions, (iii) semiautomatic method of terms extraction and semantic representation construction based on morphosyntactic rules, (iv) semiautomatic method of terms extraction based on BERT language models, (v) case study of semantic classification in requests of access to information. The methods were developed and included in ten different document collections, in Portuguese and English, which can be presented as different versions of the semantically enriched representations. The results indicate that the purposed method is promising, improving accuracy results in semantic classification tasks when compared to the traditional method BoW.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2023-02-16
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.