Scene compliant spatio-temporal multi-modal multi-agent long-term trajectory forecasting

Ridel, Daniela Alves

doi:10.11606/T.55.2021.tde-08112021-112852

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.55.2021.tde-08112021-112852

Documento

Tesis Doctoral

Autor

Ridel, Daniela Alves (Catálogo USP)

Nombre completo

Daniela Alves Ridel

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2021-08-18

Publicación

São Carlos, 2021

Director

Wolf, Denis Fernando (Catálogo USP)

Tribunal

Wolf, Denis Fernando (Presidente)
Nascimento, Erickson Rangel do
Ponti, Moacir Antonelli
Silva, Diego Furtado

Título en inglés

Scene compliant spatio-temporal multi-modal multi-agent long-term trajectory forecasting

Palabras clave en inglés

Convolutional neural networks
Machine learning
Multimodal trajectory forecasting

Resumen en inglés

Predicting long-term human motion is challenging due to the non-linearity, multi-modality, and inherent uncertainty in future trajectories. Such type of prediction is important to ensure safety in the context of self-driving vehicles, especially when driving inside cities where vulnerable road agents, as cyclists and pedestrians, might be more commonly seen. By predicting the trajectories of surrounding agents, the self-driving car can plan safer routes and avoid possible collisions. Prior studies have used different types of input information depending on the type of agent (cars, pedestrians, or cyclists), the length of the predicted trajectory (long or short-term), and the number of predicted trajectories (unimodal or multimodal). Related work either rely on highdefinition maps or processes scene and past trajectories as disconnected features, therefore the spatial inference of context in future trajectories is lost. We propose a new approach to trajectory forecasting that aligns the input information in space and time in an agent-centered manner. By aligning the input information we can take advantage of convolutional neural networks to compute the most plausible paths. Our model automatically learns and enforces scene context and therefore can predict multiple plausible paths according to the input information. The proposed approach achieved competitive results compared to the state-of-the-art in the Stanford Drone Dataset (SDD) for long-term trajectory forecasting, using five predicted trajectories. For critical applications, like self-driving cars, it is important to predict several possible future trajectories of each target agent, as it covers a broader range of possible futures, increasing self-driving car safety. Accordingly, the prediction of trajectories is a crucial task to be developed and included in the self-driving cars pipeline.

Título en portugués

Predição multimodal de trajetórias de longo prazo de múltiplos tipos de agentes adaptável a cena

Palabras clave en portugués

Aprendizado de máquina
Predição multimodal de trajetórias
Redes neurais convolucionais

Resumen en portugués

A previsão de movimentação humana de longo prazo é uma tarefa desafiadora devido à não linearidade, multimodalidade e incerteza inerente nas trajetórias futuras. Esse tipo de previsão é importante para garantir a segurança no contexto de veículos autônomos, especialmente quando eles se deslocam dentro de centros urbanos onde ciclistas e pedestres podem ser vistos com mais frequência. Ao prever as trajetórias dos agentes ao seu redor, o veículo autônomo pode planejar rotas mais seguras e evitar possíveis colisões. Trabalhos prévios usaram diferentes tipos de informações de entrada, dependendo do tipo de agente (carros, pedestres ou ciclistas), a duração da trajetória prevista (longo ou curto prazo) e a quantidade de trajetórias previstas (unimodal ou multimodal). Trabalhos relacionados normalmente ou dependem de mapas de alta definição, ou processam a cena e as trajetórias como recursos desconexos, portanto, a inferência espacial do contexto nas trajetórias futuras é perdida. Nesta tese é proposta uma nova abordagem para a previsão de trajetórias que alinha as informações de entrada no espaço e no tempo usando o mesmo frame de referência centrado no agente. Alinhando essas informações conseguimos utilizar o poder das redes neurais convolucionais para computar os caminhos mais prováveis e forçar o modelo a compreender a cena. O modelo proposto aprende automaticamente o contexto da cena e prevê vários caminhos que são plausíveis de acordo com as informações de entrada. A abordagem proposta atingiu resultados competitivos quando comparado ao estado da arte no Stanford Drone Dataset (SDD) para predição de trajetórias de longo prazo, usando cinco trajetórias previstas. Para aplicações críticas, como carros autônomos, é importante prever várias trajetórias futuras possíveis para cada agente-alvo, pois assim é abrangido uma gama mais ampla de possíveis futuros, aumentando a segurança de veículos autônomos. Nesse sentido, a previsão de trajetórias é uma tarefa crucial a ser desenvolvida e incluída no pipeline de carros autônomos.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

DanielaAlvesRidel_revisada.pdf (11.28 Mbytes)

Fecha de Publicación

2021-11-08

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.