Classificadores baseados em vetores de suporte gerados a partir de dados rotulados e não-rotulados.

Oliveira, Clayton Silva

doi:10.11606/D.3.2006.tde-22072007-192518

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2006.tde-22072007-192518

Documento

Dissertação de Mestrado

Autor

Oliveira, Clayton Silva (Catálogo USP)

Nome completo

Clayton Silva Oliveira

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Engenharia de Controle e Automação Mecânica

Data de Defesa

2006-03-30

Imprenta

São Paulo, 2006

Orientador

Cozman, Fabio Gagliardi (Catálogo USP)

Banca examinadora

Cozman, Fabio Gagliardi (Presidente)
Barros, Leliane Nunes de
Del Moral Hernandez, Emilio

Título em português

Classificadores baseados em vetores de suporte gerados a partir de dados rotulados e não-rotulados.

Palavras-chave em português

Aprendizado de máquina
Inteligência artificial
Máquinas de vetores de suporte
Treinamento semi-supervisionado

Resumo em português

Treinamento semi-supervisionado é uma metodologia de aprendizado de máquina que conjuga características de treinamento supervisionado e não-supervisionado. Ela se baseia no uso de bases semi-rotuladas (bases contendo dados rotulados e não-rotulados) para o treinamento de classificadores. A adição de dados não-rotulados, mais baratos e geralmente disponíveis em maior quantidade do que os dados rotulados, pode aumentar o desempenho e/ou baratear o custo de treinamento desses classificadores (a partir da diminuição da quantidade de dados rotulados necessários). Esta dissertação analisa duas estratégias para se executar treinamento semi-supervisionado, especificamente em Support Vector Machines (SVMs): formas direta e indireta. A estratégia direta é atualmente mais conhecida e estudada, e permite o uso de dados rotulados e não-rotulados, ao mesmo tempo, em tarefas de aprendizagem de classificadores. Entretanto, a inclusão de muitos dados não-rotulados pode tornar o treinamento demasiadamente lento. Já a estratégia indireta é mais recente, sendo capaz de agregar os benefícios do treinamento semi-supervisionado direto com tempos menores para o aprendizado de classificadores. Esta opção utiliza os dados não-rotulados para pré-processar a base de dados previamente à tarefa de aprendizagem do classificador, permitindo, por exemplo, a filtragem de eventuais ruídos e a reescrita da base em espaços de variáveis mais convenientes. Dentro do escopo da forma indireta, está a principal contribuição dessa dissertação: idealização, implementação e análise do algoritmo split learning. Foram obtidos ótimos resultados com esse algoritmo, que se mostrou eficiente em treinar SVMs de melhor desempenho e em períodos menores a partir de bases semi-rotuladas.

Título em inglês

Learning support vector machines from labeled and unlabeled data.

Palavras-chave em inglês

Artificial intelligence
Machine learning
Semi-supervised learning
Support vector machines

Resumo em inglês

Semi-supervised learning is a machine learning methodology that mixes features of supervised and unsupervised learning. It allows the use of partially labeled databases (databases with labeled and unlabeled data) to train classifiers. The addition of unlabeled data, which are cheaper and generally more available than labeled data, can enhance the performance and/or decrease the costs of learning such classifiers (by diminishing the quantity of required labeled data). This work analyzes two strategies to perform semi-supervised learning, specifically with Support Vector Machines (SVMs): direct and indirect concepts. The direct strategy is currently more popular and studied; it allows the use of labeled and unlabeled data, concomitantly, in learning classifiers tasks. However, the addition of many unlabeled data can lead to very long training times. The indirect strategy is more recent; it is able to attain the advantages of the direct semi-supervised learning with shorter training times. This alternative uses the unlabeled data to pre-process the database prior to the learning task; it allows denoising and rewriting the data in better feature espaces. The main contribution of this Master thesis lies within the indirect strategy: conceptualization, experimentation, and analysis of the split learning algorithm, that can be used to perform indirect semi-supervised learning using SVMs. We have obtained promising empirical results with this algorithm, which is efficient to train better performance SVMs in shorter times from partially labeled databases.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

dissertacaoMestradoClaytonSilvaOliveira.pdf (6.83 Mbytes)

fichaCatalograficaEdRevisada.doc (42.00 Kbytes)

Data de Publicação

2007-08-20

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.