Aprendizado de representações com Redes Convolucionais para a identificação de espécies de pássaros e anuros em Paisagens Acústicas

Dias, Fábio Felix

doi:10.11606/T.55.2022.tde-11012023-094123

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.55.2022.tde-11012023-094123

Documento

Tese de Doutorado

Autor

Dias, Fábio Felix (Catálogo USP)

Nome completo

Fábio Felix Dias

E-mail

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2022-10-27

Imprenta

São Carlos, 2022

Orientador

Minghim, Rosane (Catálogo USP)
Ponti, Moacir Antonelli - (Coorientador) (Catálogo USP)

Banca examinadora

Ponti, Moacir Antonelli (Presidente)
Oliveira, Maria Cristina Ferreira de
Ribeiro, Milton Cezar
Silva, Celmar Guimarães da

Título em português

Aprendizado de representações com Redes Convolucionais para a identificação de espécies de pássaros e anuros em Paisagens Acústicas

Palavras-chave em português

Auto supervisão
Combinação de entradas
Identificação de sons
Quantificação

Resumo em português

A análise de Paisagens Acústicas desperta grande interesse na comunidade científica como ferramenta para auxiliar a tomada de decisões relacionadas ao monitoramento e entendimento de questões ambientais. Por exemplo, análises da diversidade e do comportamento de espécies animais, podem ajudar na compreensão do estado do ambiente onde essas espécies são encontradas. Essas análises utilizam áudios gravados de maneira autônoma em ambientes diversos, técnica que diminui custos, aumenta a capacidade de análise e diminui a influência externa nesses ambientes. Entretanto, o aumento da quantidade de gravações gera desafios para a exploração e extração de conhecimento desses dados. Nesse cenário, técnicas como Redes Neurais Convolucionais são empregadas, com resultados relevantes, para ajudar os pesquisadores em tarefas de detecção e identificação de espécies, por exemplo. Essas técnicas precisam lidar com problemas recorrentes de sons coletados em ambientes naturais e não controlados, como variação dos padrões sonoros, sobreposição de sinais e ruídos diversos. Esta pesquisa de doutorado traçou um caminho para melhorar a aplicação de redes neurais na identificação de espécies de pássaros e anuros, em sons coletados em ambientes naturais. A abordagem proposta investigou sobretudo maneiras de regularização da função de custo da rede com técnicas de quantificação; combinações de entradas para as redes, como variações de espectrogramas, características acústicas e informações sobre as gravações; e abordagens de Aprendizado Autossupervisionado para pré-treinamento das arquiteturas de rede. Com uma quantidade reduzida de amostras para treinamento, essas abordagens obtiveram resultados superiores aos de um classificador linear que usa características acústicas como entrada, melhoraram a segregação dos espaços de características em níveis distintos, incrementaram sobretudo os resultados de redes simples e alcançaram resultados próximos aos de técnicas supervisionadas empregadas para o pré-treinamento.

Título em inglês

Learning representations with Convolutional Networks to identify bird and anuran species in Soundscapes

Palavras-chave em inglês

Input combination
Quantification
Self- supervised
Sound identification

Resumo em inglês

Soundscape analysis makes the scientific community interested in it as a tool to aim decision-making related to monitoring and understanding ecological questions. For instance, analysis of diversity and animal behavior can help to understand landscape health. These analyses use autonomous recorders to capture sounds from several landscapes, a technique that diminishes costs, enhances analytical capabilities, and lessens habitat disorders generated by human presence. Nevertheless, the massive amount of recordings to perform the analyses yields challenges to knowledge extraction. In this case, Convolutional Neural Networks are employed to help researchers to detect and identify animal species, for instance. These tools have to deal with issues related to sounds captured in the wild, such as sound variation, pattern overlap, and multiple sources of noise. As a result, this Ph.D. research constructed a path to improve the applicability of neural networks to identify birds and anuran species, inside recordings collected in natural environments. The proposed approach explored mainly the regularization of the loss function with quantification techniques; input combinations to feed networks, such as spectrogram variations, acoustic features, and recording information; and Self-supervised Learning to pretrain network architectures. In a scenario with few data samples, these approaches achieved better results than a linear classifier with acoustic features as input, improved with distinct levels the segregation of the embeddings, increased mainly the results of simple networks, and reached results close to supervised techniques used to pretrain neural networks.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

FabioFelixDias_DO_revisada.pdf (10.07 Mbytes)

Data de Publicação

2023-01-11

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.