• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
Documento
Autor
Nome completo
Marcelo Kaminski Sanches
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2003
Orientador
Banca examinadora
Monard, Maria Carolina (Presidente)
Lopes, Alneu de Andrade
Scalabrin, Edson Emílio
Título em português
"Aprendizado de máquina semi-supervisionado: proposta de um algoritmo para rotular exemplos a partir de poucos exemplos rotulados"
Palavras-chave em português
aprendizado de máquina
aprendizado semi-supervisionado
clustering
Resumo em português
A fim de se utilizar algoritmos de Aprendizado de Máquina para tarefas de classificação, é admitida a existência de um conjunto de exemplos rotulados, conhecido como conjunto de treinamento, o qual é utilizado para o treinamento do classificador. Entretanto, em casos reais, esse conjunto de treinamento pode não conter um número de exemplos suficientemente grande para se induzir um bom classificador. Recentemente, a comunidade científica tem mostrado um grande interesse em uma variação dessa abordagem de aprendizado supervisionado. Essa nova abordagem, conhecida como aprendizado semi-supervisionado, assume que, juntamente com o conjunto de treinamento, há um segundo conjunto, de exemplos não rotulados, também disponível durante o treinamento. Uma das metas do aprendizado semi-supervisionado é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível juntamente com um pequeno conjunto de exemplos rotulados. A motivação para o aprendizado semi-supervisionado deve-se ao fato que, em muitas aplicações do mundo real, conjuntos de exemplos não rotulados são facilmente encontrados ou muito baratos para serem coletados, quando comparados aos conjuntos de exemplos rotulados. Um outro fator é que exemplos não rotulados podem ser coletados de forma automática enquanto os rotulados necessitam de especialistas ou outros custosos recursos de classificação. Os exemplos não rotulados podem ser utilizados de diversas maneiras. Neste trabalho é explorado um mecanismo no qual os exemplos não rotulados podem ser utilizados para melhorar tarefas de classificação e é proposto um algoritmo semi-supervisionado, denominado k-meanski, o qual viabiliza o uso de exemplos não rotulados em aprendizado supervisionado. A técnica utilizada pelo algoritmo proposto está baseada em duas premissas. A primeira delas é que os exemplos tendem a se agrupar naturalmente em clusters, ao invés de se distribuirem uniformemente no espaço de descrição dos exemplos. Além disso, cada exemplo do conjunto inicial de exemplos rotulados deve estar localizado perto do centro de um dos clusters existentes no espaço de descrição de exemplos. A segunda premissa diz que a maioria dos exemplos nos clusters pertencem a uma classe específica. Obviamente, a validade dessas premissas é dependente do conjunto de dados utilizado. O algoritmo k-meanski funciona bem nos casos em que os dados estão em conformidade com ambas as premissas. Entretanto, caso elas sejam violadas, a performance do algoritmo não será boa. São mostrados experimentos utilizando conjuntos de dados do mundo real, escolhendo-se aleatoriamente exemplos desses conjuntos para atuarem como exemplos rotulados.
 
Arquivos
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Dissertacao_MKS.pdf (2.87 Mbytes)
Data de Publicação
2003-10-20
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
Centro de Informática de São Carlos
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2018. Todos os direitos reservados.