• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
10.11606/T.3.2009.tde-01072009-131819
Documento
Autor
Nome completo
Valdinei Freire da Silva
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2009
Orientador
Banca examinadora
Reali Costa, Anna Helena (Presidente)
Lima, Pedro Manuel Urbano de Almeida
Ribeiro, Carlos Henrique Costa
Roque Martinho, Carlos António
Silva, Paulo José da Silva e
Título em português
Extração de preferências por meio de avaliações de comportamentos observados.
Palavras-chave em português
Aprendizado computacional
Inteligência artificial
Processos de Markov
Teoria da decisão
Resumo em português
Recentemente, várias tarefas tem sido delegadas a sistemas computacionais, principalmente quando sistemas computacionais são mais confiáveis ou quando as tarefas não são adequadas para seres humanos. O uso de extração de preferências ajuda a realizar a delegação, permitindo que mesmo pessoas leigas possam programar facilmente um sistema computacional com suas preferências. As preferências de uma pessoa são obtidas por meio de respostas para questões específicas, que são formuladas pelo próprio sistema computacional. A pessoa age como um usuário do sistema computacional, enquanto este é visto como um agente que age no lugar da pessoa. A estrutura e contexto das questões são apontadas como fonte de variações das respostas do usuário, e tais variações podem impossibilitar a factibilidade da extração de preferências. Uma forma de evitar tais variações é questionar um usuário sobre a sua preferência entre dois comportamentos observados por ele. A questão de avaliar relativamente comportamentos observados é mais simples e transparente ao usuário, diminuindo as possíveis variações, mas pode não ser fácil para o agente interpretar tais avaliações. Se existem divergências entre as percepções do agente e do usuário, o agente pode ficar impossibilitado de aprender as preferências do usuário. As avaliações são geradas com base nas percepções do usuário, mas tudo que um agente pode fazer é relacionar tais avaliações às suas próprias percepções. Um outro problema é que questões, que são expostas ao usuário por meio de comportamentos demonstrados, são agora restritas pela dinâmica do ambiente e um comportamento não pode ser escolhido arbitrariamente. O comportamento deve ser factível e uma política de ação deve ser executada no ambiente para que um comportamento seja demonstrado. Enquanto o primeiro problema influencia a inferência de como o usuário avalia comportamentos, o segundo problema influencia quão rápido e acurado o processo de aprendizado pode ser feito. Esta tese propõe o problema de Extração de Preferências com base em Comportamentos Observados utilizando o arcabouço de Processos Markovianos de Decisão, desenvolvendo propriedades teóricas em tal arcabouço que viabilizam computacionalmente tal problema. O problema de diferentes percepções é analisado e soluções restritas são desenvolvidas. O problema de demonstração de comportamentos é analisado utilizando formulação de questões com base em políticas estacionárias e replanejamento de políticas, sendo implementados algoritmos com ambas soluções para resolver a extração de preferências em um cenário sob condições restritas.
Título em inglês
Preference elicitation using evaluation over observed behaviours.
Palavras-chave em inglês
Artificial inteligence
Autonomous agent
Bayesian inference
Behaviours
Discovered preference hypothesis
Expected utility theory
Machine learning
Markovian decision processes
Preference elicitation
Robotics
Resumo em inglês
Recently, computer systems have been delegated to accomplish a variety of tasks, when the computer system can be more reliable or when the task is not suitable or not recommended for a human being. The use of preference elicitation in computational systems helps to improve such delegation, enabling lay people to program easily a computer system with their own preference. The preference of a person is elicited through his answers to specific questions, that the computer system formulates by itself. The person acts as an user of the computer system, whereas the computer system can be seen as an agent that acts in place of the person. The structure and context of the questions have been pointed as sources of variance regarding the users answers, and such variance can jeopardize the feasibility of preference elicitation. An attempt to avoid such variance is asking an user to choose between two behaviours that were observed by himself. Evaluating relatively observed behaviours turn questions more transparent and simpler for the user, decreasing the variance effect, but it might not be easier interpreting such evaluations. If divergences between agents and users perceptions occur, the agent may not be able to learn the users preference. Evaluations are generated regarding users perception, but all an agent can do is to relate such evaluation to his own perception. Another issue is that questions, which are exposed to the user through behaviours, are now constrained by the environment dynamics and a behaviour cannot be chosen arbitrarily, but the behaviour must be feasible and a policy must be executed in order to achieve a behaviour. Whereas the first issue influences the inference regarding users evaluation, the second problem influences how fast and accurate the learning process can be made. This thesis proposes the problem of Preference Elicitation under Evaluations over Observed Behaviours using the Markov Decision Process framework and theoretic properties in such framework are developed in order to turn such problem computationally feasible. The problem o different perceptions is analysed and constraint solutions are developed. The problem of demonstrating a behaviour is considered under the formulation of question based on stationary policies and non-stationary policies. Both type of questions was implemented and tested to solve the preference elicitation in a scenario with constraint conditions.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
FICHA_SILVA.doc (39.00 Kbytes)
Tese_Vers_Imp.pdf (1.67 Mbytes)
Data de Publicação
2009-07-08
 
AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.
  • BEIRIGO, Rafael Lemes, et al. Avaliação de Políticas Abstratas na Transferência de Conhecimento em Navegação Robótica. Revista de Sistemas e Computação [online], 2012, vol. 2, p. 17-25. Dispon?vel em: http://www.revistas.unifacs.br/index.php/rsc/article/view/2420.
  • SILVA, Valdinei Freire da, and COSTA, ANNA HELENA REALI. Compulsory Flow Q-Learning: an RL algorithm for robot navigation based on partial-policy and macro-states [doi:10.1590/S0104-65002009000300007]. Journal of the Brazilian Computer Society [online], 2009, vol. 15, p. 65-75.
  • SILVA, Valdinei Freire da, Selvatici, Antonio Henrique, e COSTA, ANNA HELENA REALI. Navigation towards a goal position: from reactive to generalised learned control [doi:10.1088/1742-6596/285/1/012025]. Journal of Physics. Conference Series [online], 2011, vol. 285, p. 012025.
  • BIANCHI, Reinaldo Augusto da Costa, SIMÕES, Alexandre da Silva, e Costa, Anna Helena Reali. Comportamentos Reativos para seguir Pistas em um Robô Móvel Guiado por Visão. In V Simpósio Brasileiro de Automação Inteligente, Canela, RS., 2001. Anais do V SBAI. : SBA, 2001.
  • Costa, Anna Helena Reali, SIMÕES, Alexandre da Silva, e ANDRADE, Marco Túlio Carvalho de. Utilizando um Classificador Fuzzy para Seleção Visual de Laranjas. In Workshop de Computação WORKCOMP'2001, São José dos Campos, SP, 2001. Anais do WORKCOMP'2001 Workshop de Computação.São José dos Campos, SP : ITA - Instituto tecnológico de Aeronáutica, 2001.
  • KOGA, M. L., SILVA, Valdinei Freire da, e COSTA, Anna Helena Reali. Online Learning of Abstract Stochastic Policies with Monte Carlo. In VII Workshop de Tecnologia Adaptativa (WTA 2013), São Paulo, SP, 2013. Anais do VII Workshop de Tecnologia Adaptativa., 2013.
  • MATOS, T., et al. Simultaneous abstract and concrete reinforcement learning. In 9th Symposium on Abstraction, Reformulation and Approximation (SARA 2011), Parador de Cardona, Spain, 2011. 9th Symposium on Abstraction, Reformulation and Approximation.Menlo Park, CA : AAAI Press, 2011.
  • SILVA, Valdinei Freire da, et al. Reconhecimento de escrita baseado em Redes Neurais Artificiais utilizando B-splines e TDF. In 6o. Simpósio Brasileiro de Automação Inteligente - SBAI/SBA, Bauru, SP, 2003. Anais do VI Simpósio Brasileiro de Automação Inteligente., 2003.
  • SILVA, Valdinei Freire da, and COSTA, Anna Helena Reali. A Geometric Approach to Find Nondominated Policies to Imprecise Reward MDPs. In European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, Atenas, Grécia, 2011. Lecture Notes in Computer Science: Machine Learning and Knowledge Discovery in Databases.Berlin / Heidelberg : Springer, 2011. Available from: http://www.springerlink.com/content/c58163145512134g/.
  • SILVA, Valdinei Freire da, Costa, Anna Helena Reali, and LIMA, Pedro. Inverse reinforcement learning with evaluation. In 2006 IEEE International Conference on Robotics and Automation, Orlando, Florida, 2006. Proceedings 2006 IEEE International Conference on Robotics and Automation.Danvers, MA : Institute of Electrical and Electronics Engineers, Inc., 2006.
  • SILVA, Valdinei Freire da, e COSTA, Anna Helena Reali. Gerando políticas não dominadas em Processos Markovianos de Decisão. In WCI 2010 - III Workshop on Computational Intelligence, São Bernardo do Campo, 2010. Anais do III Workshop on Computational Intelligence. : SBC, 2010.
  • SILVA, Valdinei Freire da, e Costa, Anna Helena Reali. Uso de Fluxo Obrigatório e Representação em Baixa Resolução para Agilizar a Satisfação de uma Função Objetivo no Aprendizado por Reforço. In ii Workshop do Projeto AACROM, São José dos Campos, SP., 2003. Anais do II Workshop do Projeto AACROM., 2003.
  • SILVA, Valdinei Freire da, LIMA, Pedro Manuel Urbano de Almeida, and Costa, Anna Helena Reali. Eliciting Preferences Over Observed Behaviours Based on Relative Evaluations [doi:10.1109/IROS.2007.4399403]. In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2007), San Diego, CA, 2007. Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems.San Diego, CA : IEEE, 2007.
  • SILVA, Valdinei Freire da, LIMA, Pedro Manuel Urbano de Almeida, e Costa, Anna Helena Reali. Extração de Preferências sobre Comportamentos Observados. In Simpósio Brasileiro de Automação Inteligente (VIII SBAI), Florianópolis, 2007. Anais do Simpósio Brasileiro de Automação Inteligente.Florianópolis : Sociedade Brasileira de Automatica (SBA), 2007.
  • SILVA, Valdinei Freire da, LIMA, Pedro, e Costa, Anna Helena Reali. Adaptação de funções utilidades para aprendizado por reforço. In XVI Congresso Brasileiro de Automática, Salvador, 2006. Anais do XVI Congresso Brasileiro de Automática.Salvador : Sociedade Brasileira de Automática, 2006.
  • SILVA, Valdinei Freire da, LIMA, Pedro, e Costa, Anna Helena Reali. Aprendizado por reforço inverso com avaliação. In 3rd Workshop on MSc dissertation and PhD thesis in Artificial Intelligence (WTDIA'06), Ribeirão Preto, 2006. Proceedings of International Joint Conference, 10th Ibero-American Artificial Intelligence Conference, 18th Brazilian Artificial Intelligence Symposium, 9th Brazilian Neural Networks Symposium, IBERAMIA-SBIA-SBRN.Ribeirão Preto : Sociedade Brasileira de Computação, 2006.
  • SILVA, Valdinei Freire da, PEREIRA, F. A., and COSTA, Anna Helena Reali. Finding Memoryless Probabilistic Relational Policies for Inter-task Reuse. In 14th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, Catania, 2012. Advances in Computational Intelligence.Berlin : Springer, 2012. Available from: http://link.springer.com/chapter/10.1007%2F978-3-642-31715-6_13.
Todos os direitos da tese/dissertação são de seus autores
Centro de Informática de São Carlos
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2018. Todos os direitos reservados.