Vector representation of texts applied to prediction models

Stern, Deborah Bassi

doi:10.11606/D.104.2020.tde-10062020-102333

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.104.2020.tde-10062020-102333

Document

Mémoire de Maîtrise

Auteur

Stern, Deborah Bassi (Catálogo USP)

Nom complet

Deborah Bassi Stern

Unité de l'USP

Estatística Interinstitucional do ICMC e UFSCar

Domain de Connaissance

estatística

Date de Soutenance

2020-03-09

Editeur

São Carlos, 2020

Directeur

Izbicki, Rafael (Catálogo USP)

Jury

Izbicki, Rafael (Président)
Prates, Marcos Oliveira
Silva, Diego Furtado

Titre en anglais

Vector representation of texts applied to prediction models

Mots-clés en anglais

Natural language processing
Neural networks
Prediction models
WordVectors

Resumé en anglais

Natural Language Processing has gone through substantial changes over time. It was only recently that statistical approaches started receiving attention. The Word2Vec model is one of these. It is a shallow neural network designed to fit vectorial representations of words according to their syntactic and semantic values. The word embeddings acquired by this method are stateof- art. This method has many uses, one of which is the fitting of prediction models based on texts. It is common in the literature for a text to be represented as the mean of its word embeddings. The resulting vector is then used in the predictive model as an explanatory variables. In this dissertation, we propose getting more information of text by adding other summary statistics besides the mean, such as other moments and quantiles. The improvement of the prediction models is studied in real datasets.

Titre en portugais

Representações vetoriais de textos aplicados a modelos preditivos

Mots-clés en portugais

Modelos de predição
Processamento de linguagem natural
Redes neurais
Representação vetorial de palavras

Resumé en portugais

Processamento de linguagem natural sofreu uma grande mudança com o tempo. Abordagens estatísticas passaram a ganhar atenção apenas recentemente. O modelo word2vec é uma destas. Ele é uma rede neural rasa desenhada para ajustar representações vetoriais de palavras segundo seus valores semânticos e sintáticos. As representações de palavras obtidas por este método são o estado da arte. Este método tem muitas aplicações, como permitir o ajuste de modelos preditivos baseadas em textos. Na literatura é comum um texto ser representado pela média das representações vetorias das palavras que o compõem. O vetor resultante é então incluído como variável explicativa no modelo. Nesta dissertação propomos a obtenção de mais informação sobre o texto através de outras estatísticas descritivas além da média, como outros momentos e quantis. A melhora dos modelos preditivos é estudada com dados reais.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

DeborahBassiStern.pdf (602.32 Kbytes)

Date de Publication

2020-06-10

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.