Generalização e Robustez: Aprendizagem em Redes Neurais na Presença de Ruído

Simonetti, Roberta

doi:10.11606/T.43.1997.tde-17122013-145626

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.43.1997.tde-17122013-145626

Document

Doctoral Thesis

Author

Simonetti, Roberta (Catálogo USP)

Full name

Roberta Simonetti

Institute/School/College

Instituto de Física

Knowledge Area

Solid-State Physics

Date of Defense

1997-05-09

Published

São Paulo, 1997

Supervisor

Alfonso, Nestor Felipe Caticha (Catálogo USP)

Committee

Alfonso, Nestor Felipe Caticha (President)
Carneiro, Carlos Eugenio Imbassahy
Salinas, Silvio Roberto de Azevedo
Santos, Rita Maria Zorzenon dos
Theumann, Alba Graciela Rivas de

Title in Portuguese

Generalização e Robustez: Aprendizagem em Redes Neurais na Presença de Ruído

Keywords in Portuguese

Dinâmicas de aprendizagem
Generalização
Mecânica estatística
Processos estocásticos
Redes neurais artificiais

Abstract in Portuguese

Neste trabalho investigamos o aprendizado supervisionado on-line, com ênfase nas habilidades de generalização, de redes neurais feedforward. O estudo de algoritmos de aprendizagem ótimos, no sentido da generalização, é estendido para duas diferentes classes de arquiteturas: a máquina paridade com estrutura de árvore e K unidades escondidas, e o perceptron reversed wedge, uma máquina de uma camada com função de transferência não monotônica. O papel do ruído é de fundamental importância na teoria de aprendizagem. Neste trabalho estudamos os processos com ruído que podem ser parametrizados por uma única quantidade, o nível de ruído. No caso da máquina paridade analisamos o aprendizado na presença de ruído multiplicativo (na saída). O algoritmo ótimo é muito superior aos algoritmos de aprendizagem até então apresentados, como o algoritmo de mínima ação (LAA), como podemos ver, por exemplo, através do comportamento do erro de generalização que decai após a apresentação de p exemplos, com l/p ao invés de l/'p POT. 1/3' como no caso do LAA. Além deste fato, observa-se que não existe um nível de ruído crítico a partir do qual a rede não é capaz de generalizar, como ocorre no LAA. Além do ruído multiplicativo, no caso do perceptron reversed wedge consideramos também o ruído aditivo. Analisamos a função de modulação fornecida pelo algoritmo ótimo e as curvas de aprendizagem. A aprendizagem ótima requer o uso de parâmetros que usualmente não estão disponíveis. Neste caso estudamos a influência da utilização de uma estimativa do nível de ruído sobre as curvas de aprendizado. Estes resultados são apresentados na forma do que chamamos de diagrama de robustez, no espaço de nível de ruído real versus nível de ruído estimado. As linhas de transição deste diagrama definem regiões com comportamentos dinâmicos diferentes. Entre as propriedades mais interessantes encontradas, destacamos a universalidade do diagrama de robustez para ruído multiplicativo, uma vez que é exatamente o mesmo para a máquina paridade e comitê com estrutura de árvore, e para o perceptron reversed-wedge. Entretanto, esta universalidade não se estende para o caso de ruído aditivo, uma vez que, neste caso, os diagramas dependem da arquitetura em questão.

Title in English

Generalization and robustness: learning in neural networks in the presence of noise

Keywords in English

Artificial neural networks
Dynamic learning
Generalization
Statistical mechanics
Stochastic processes

Abstract in English

In this work online supervised learning is investigated with emphasis on the generalization abilities of feedforward neural networks. The study of optimal learning algorithms, in the sense of generalization, is extended to two different classes of architectures; the tree parity machine (PM) with K hidden units and the reverse wedge perceptron (RWP), a single layer machine with a non monotonic transfer function. The role of noise is of fundamental importance in learning theory, and we study noise processes which can be parametrized by a single quantity, the noise level. For the PM we analize learning in the presence of multiplicative or output noise. The optimal algorithm is far superior than previous learning algorithms, such as the Least Action Algorithm (LAA), since for example, the generalization error's decay is proportional to l /p instead of l/'p POT. 1/3' for the LAA, after p examples have been used for training. Furthermore there is no critical noise level, beyond which no generalization ability is attainable, as is the case for the LAA. For the RW perceptron in addition to multiplicative noise we also consider additive noise. The optimal algorithm modulation function and the learning curves are analized. Optimal learning requires using certain usually unavailable parameters. In this case, we study the influence that misevaluation of the noise levels has on the learning curves. The results are presented in terms of what we have called Robustness Phase Diagrams (RPD), in a space of real noise level against assumed noise level. The RPD boundary lines separate between different dynamical behaviours. Among the most interesting properties, we have found the universality of the RPD for multiplicative noise, since it is exactly the same for the PM, RWP and the tree committee machine. However this universality does not hold for the additive noise case, since RPD's are shown to be architecture dependent.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

46055Simonetti.pdf (44.44 Mbytes)

Publishing Date

2014-02-21

Derived works

WARNING: Learn what derived works are clicking here.