Tesis Doctoral
DOI
https://doi.org/10.11606/T.45.2017.tde-21082017-111455
Documento
Autor
Nombre completo
Igor dos Santos Montagner
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2017
Director
Tribunal
Hirata Junior, Roberto (Presidente)
Canu, Stéphane
Carvalho, André Carlos Ponce de Leon Ferreira de
Cesar Junior, Roberto Marcondes
Falcão, Alexandre Xavier
Título en inglés
W-operator learning using linear models for both gray-level and binary inputs
Palabras clave en inglés
Image processing
Linear classification methods
Machine learning
Support vector machines
W-operator learning
Resumen en inglés
Image Processing techniques can be used to solve a broad range of problems, such as medical imaging, document processing and object segmentation. Image operators are usually built by combining basic image operators and tuning their parameters. This requires both experience in Image Processing and trial-and-error to get the best combination of parameters. An alternative approach to design image operators is to estimate them from pairs of training images containing examples of the expected input and their processed versions. By restricting the learned operators to those that are translation invariant and locally defined ($W$-operators) we can apply Machine Learning techniques to estimate image transformations. The shape that defines which neighbors are used is called a window. $W$-operators trained with large windows usually overfit due to the lack sufficient of training data. This issue is even more present when training operators with gray-level inputs. Although approaches such as the two-level design, which combines multiple operators trained on smaller windows, partly mitigates these problems, they also require more complicated parameter determination to achieve good results. In this work we present techniques that increase the window sizes we can use and decrease the number of manually defined parameters in $W$-operator learning. The first one, KA, is based on Support Vector Machines and employs kernel approximations to estimate image transformations. We also present adequate kernels for processing binary and gray-level images. The second technique, NILC, automatically finds small subsets of operators that can be successfully combined using the two-level approach. Both methods achieve competitive results with methods from the literature in two different application domains. The first one is a binary document processing problem common in Optical Music Recognition, while the second is a segmentation problem in gray-level images. The same techniques were applied without modification in both domains.
Título en portugués
Aprendizado de w-operadores usando modelos lineares para imagens binárias e em nÃveis de cinza
Palabras clave en portugués
Aprendizado de máquina
Máquinas de suporte vetorial
Processamento de imagens
Projeto automático de W-operadores
Resumen en portugués
Processamento de imagens pode ser usado para resolver problemas em diversas áreas, como imagens médicas, processamento de documentos e segmentação de objetos. Operadores de imagens normalmente são construÃdos combinando diversos operadores elementares e ajustando seus parâmetros. Uma abordagem alternativa é a estimação de operadores de imagens a partir de pares de exemplos contendo uma imagem de entrada e o resultado esperado. Restringindo os operadores considerados para o que são invariantes à translação e localmente definidos ($W$-operadores), podemos aplicar técnicas de Aprendizagem de Máquina para estimá-los. O formato que define quais vizinhos são usadas é chamado de janela. $W$-operadores treinados com janelas grandes frequentemente tem problemas de generalização, pois necessitam de grandes conjuntos de treinamento. Este problema é ainda mais grave ao treinar operadores em nÃveis de cinza. Apesar de técnicas como o projeto dois nÃveis, que combina a saÃda de diversos operadores treinados com janelas menores, mitigar em parte estes problemas, uma determinação de parâmetros complexa é necessária. Neste trabalho apresentamos duas técnicas que permitem o treinamento de operadores usando janelas grandes. A primeira, KA, é baseada em Máquinas de Suporte Vetorial (SVM) e utiliza técnicas de aproximação de kernels para realizar o treinamento de $W$-operadores. Uma escolha adequada de kernels permite o treinamento de operadores nÃveis de cinza e binários. A segunda técnica, NILC, permite a criação automática de combinações de operadores de imagens. Este método utiliza uma técnica de otimização especÃfica para casos em que o número de caracterÃsticas é muito grande. Ambos métodos obtiveram resultados competitivos com algoritmos da literatura em dois domÃnio de aplicação diferentes. O primeiro, Staff Removal, é um processamento de documentos binários frequente em sistemas de reconhecimento ótico de partituras. O segundo é um problema de segmentação de vasos sanguÃneos em imagens em nÃveis de cinza.
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
tese_final.pdf (2.71 Mbytes)
Fecha de Publicación
2017-08-29
ADVERTENCIA: El material descrito abajo se refiere a los trabajos derivados de esta tesis o disertación. El contenido de estos documentos es responsabilidad del autor de la tesis o disertación.
- MONTAGNER, I. S., HIRATA JR., R., and HIRATA, N. S. T. TRIOS - an open source toolbox for training image operators from samples. In Conference on Graphics, Patterns and Images, 25 (SIBGRAPI), Ouro Preto, 2012. Workshop of Works in Progress (WIP) in SIBGRAPI 2012 (XXV Conference on Graphics, Patterns and Images).Los Alamitos : IEEE Computer Society Conference Publishing Services, 2012. Abstract.
- MONTAGNER, I. S., HIRATA, N. S. T., and JUNIOR, ROBERTO HIRATA. A Machine Learning Based Method for Staff Removal. In 22nd International Conference on Pattern Recognition (ICPR), Estocolmo, 2014. 22nd International Conference on Pattern Recognition (ICPR)., 2014.