Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural

Rissato, Pedro Henrique D'Almeida Giberti

doi:10.11606/D.59.2022.tde-18082022-081459

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.59.2022.tde-18082022-081459

Documento

Dissertação de Mestrado

Autor

Rissato, Pedro Henrique D'Almeida Giberti (Catálogo USP)

Nome completo

Pedro Henrique D'Almeida Giberti Rissato

E-mail

Unidade da USP

Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto

Área do Conhecimento

Computação Aplicada

Data de Defesa

2022-03-09

Imprenta

Ribeirão Preto, 2022

Orientador

Macedo, Alessandra Alaniz (Catálogo USP)

Banca examinadora

Macedo, Alessandra Alaniz (Presidente)
Murta Junior, Luiz Otavio
Pimentel, Maria da Graça Campos
Watanabe, Carolina Yukari Veludo

Título em português

Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural

Palavras-chave em português

Face humana
Landmarks
Reconhecimento de padrões
Visão computacional

Resumo em português

A capacidade de comunicar-se por meio da fala é essencial para qualquer ser humano. Contudo, pessoas com Transtorno de Fala (TF) decorridas de apraxia de fala na infância, desordem fonológica ou fonética necessitam de terapia fonoaudiológica. O profissional fonoaudiológico propõe uma série de exercícios para fortalecer os músculos orofaciais. Nesse contexto, os movimentos e sons não articulatórios como, por exemplo, sopro, estalo de língua ou beijo, exercitam e fortalecem boca, lábios, língua e bochechas que apoiam e sustentam a fala. Nesse sentido, o objetivo deste estudo consistiu em propor um método para o reconhecimento de beijo, estalo de língua e sopro na face humana utilizando pontos de marcação, denominados de landmarks. O método consiste em reconhecer o rosto humano, extrair a distância Euclidiana entre a análise combinatória de 20 landmarks da boca humana, para construir um vetor de distâncias. Esse vetor de distâncias foi utilizado para induzir modelos com os algoritmos de Árvore de Decisão, k-vizinhos mais próximos, Random Forest, Support Vector Machine e treinar uma rede neural do tipo Multilayer Perceptron. Por meio do método desenvolvido, o modelo induzido com Random Forest apresentou os melhores resultados e foi capaz de classificar entre as classes: (i) beijo e estalo; (ii) estalo e sopro e (iii) beijo e sopro, com uma acurácia de 93%, 93% e 65%, respectivamente. A separação entre os movimentos foi satisfatória e o modelo generalizado pode ser utilizado como apoio ao tratamento fonoaudiológico de pacientes com Transtornos de Fala.

Título em inglês

Recognition of non-verbal praxis in images of the human face using machine learning and neural network

Palavras-chave em inglês

Computer vision
Human face
Landmarks
Pattern recognition

Resumo em inglês

The ability to communicate through speech is essential for any human being. However, people with Speech Disorder (SD) due to childhood speech apraxia, phonological disorder or phonetics need speech therapy. The speech therapist proposes a series of exercises to strengthen the orofacial muscles. In this context, non-articulatory movements and sounds (such as blow, tongue snap, or kiss) strengthen the mouth, lips, tongue, and cheeks to support and sustain speech. In this sense, our goal was to propose a method to recognize kisses, tongue snaps and blows on the human face using landmarks. This method consists of the following steps: recognize the human face, extract the Euclidean distance between the combinatorial analysis of twenty landmarks from the human mouth, and create a vector of distances. This distance vector induces models with the Decision Tree, k-nearest neighbours, Random Forest, Support Vector Machine algorithms. It also trains a Multilayer Perceptron neural network. By using the proposed method, the model induced with Random Forest presented the best results and was able to classify between the classes: (i) kiss and snap; (ii) snap and blow and (iii) kiss and blow, with an accuracy of 93%, 93% and 65%, respectively. The distinction between the movements was satisfactory, and the generalized model can be used to support the speech therapy treatment of patients with Speech Disorders.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

PedroHenriqueRissato_corrigida.pdf (14.12 Mbytes)

Data de Publicação

2022-08-26

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.