• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.104.2021.tde-31032021-123649
Document
Auteur
Nom complet
Gabriela Massoni
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2021
Directeur
Jury
Stern, Rafael Bassi (Président)
Cerqueira, Andressa
Prates, Marcos Oliveira
Titre en portugais
Análise de textos por meio de processos estocásticos na representação word2vec
Mots-clés en portugais
Modelos de predição
Processamento de linguagem natural
Processos estocásticos
Representação vetorial de palavras
Resumé en portugais
Dentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem cronológica das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.
Titre en anglais
Text mining with stochastic process in word2vec representation
Mots-clés en anglais
Natural language processing
Prediction models
Stochastic process
Word vector representation
Resumé en anglais
Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the chronological order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones.For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2021-03-31
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.