• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.45.2023.tde-31072023-115633
Document
Auteur
Nom complet
Ana Lucia Lima Marreiros Maia
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2023
Directeur
Jury
Hirata, Nina Sumiko Tomita (Président)
Bezerra, Byron Leite Dantas
Cesar Junior, Roberto Marcondes
Gomes, David Menotti
Medeiros, Fátima Nelsizeuma Sombra de
Titre en portugais
Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas
Mots-clés en portugais
Grafo de adjacências
Imagem de documento
Leiaute de página de documento
Rede neural convolucional
Segmentação de imagem
Resumé en portugais
Muitos documentos originalmente gerados em papel são digitalizados para possibilitar sua preservação ou para agilizar seu processamento por meio de ferramentas computacionais. Consultar documentos em bancos de dados de imagens ou extrair informações de interesse de imagens de documentos requer a análiseddo conteúdo da imagem. Em particular, uma etapa crítica nesta análise é a análise lógica de leiaute, que consiste em detectar os componentes da página e identificar suas funções lógicas. A análise lógica de leiaute permite estabelecer as relações entre os componentes e determinar informações mportantes, como a ordem de leitura. Uma etapa fundamental na análise lógica de leiaute é detectar e classificar essas componentes de página, como blocos de texto, figuras e tabelas, problema conhecido como segmentação de página. Nesta tese, propomos um método que segue uma abordagem bottom-up, combinando modelagem de grafos e técnicas de aprendizado de máquina, para o problema de segmentação de páginas. O método proposto consiste em um pipeline no qual algumas etapas estratégicas são implementadas por meio de algoritmos de aprendizado de máquina. Como os algoritmos de aprendizado de máquina são treináveis a partir de dados, o método proposto pode ser facilmente adaptado a conjuntos de documentos com diferentes características, desde que os dados de treinamento estejam disponíveis. Esta tese também discute um procedimento experimental para otimizar o pipeline. Os experimentos utilizaram imagens de documentos (revistas e artigos científicos) do PRIMA Layout Analysis Dataset, com leiautes diversificados e complexos. Os resultados experimentais demonstram o potencial do método proposto.
Titre en anglais
A machine learning and graph based approach to page segmentation
Mots-clés en anglais
Adjacency graph
Convolutional neural network
Document image
Document page layout
Image segmentation
Resumé en anglais
Many documents originally generated on paper are digitized to enable their preservation or to streamline their processing through computational tools. Querying documents in image databases or extracting information of interest from document images requires the analysis of image content. In particular, a critical step in this analysis is the logical layout analysis, which consists of detecting page components and identifying their logical function. Logical layout analysis enables establishing the relationships between the page components and determining important information, such as the reading order. A fundamental step in logical layout analysis is detecting and classifying these page components, such as blocks of text, figures, and tables, a problem known as page segmentation. In this thesis, we propose a method that follows a bottom-up approach, combining graph modeling and machine learning techniques, for the page segmentation problem. The proposed method consists of a pipeline in which some strategic steps are implemented through machine learning algorithms. Since machine learning algorithms are trainable from data, the proposed method can be easily adapted to document sets with different characteristics as long as training data is available. This thesis also discusses an experimental procedure to optimize the pipeline. The experiments used document images (magazines and scientific papers) from PRImA Layout Analysis Dataset, with diverse and complex layouts. The experimental results demonstrate the potential of the proposed method.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
TeseAnaMaia_.pdf (3.01 Mbytes)
Date de Publication
2023-08-02
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.