• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.55.2023.tde-29082023-162952
Document
Author
Full name
Rogério Figueredo de Sousa
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2023
Supervisor
Committee
Pardo, Thiago Alexandre Salgueiro (President)
Aluisio, Sandra Maria
Moura, Raimundo Santos
Silva, Nadia Felix Felipe da
Title in Portuguese
Classificação da utilidade de opiniões em português brasileiro
Keywords in Portuguese
Mineração de opiniões
Processamento de línguas naturais
Utilidade de opiniões
Abstract in Portuguese
A quantidade de dados gerados pelos usuários na Web está aumentando. Entre esses conteúdos, as opiniões são consideradas um caso especial. Esse tipo de texto geralmente inclui coloquialismos, ruídos, erros, gírias, abreviações, etc. Portanto, eles são difíceis de serem processados por máquinas e podem ser difíceis de serem lidos até por seres humanos, em alguns casos. Particularmente, para um consumidor que procura conteúdo útil e de qualidade para ajudar nas suas decisões, como escolher um produto para comprar ou um filme para assistir, esta tarefa está se tornando cada vez mais complicada, devido aos problemas mencionados anteriormente e a grande oferta de opiniões na Web. Nesse contexto, surgiu a tarefa de Modelagem e Predição da Utilidade de Opiniões, cujo principal objetivo é estudar, modelar e processar opiniões geradas por usuários, a fim de selecionar automaticamente as mais úteis e destacá-las para ajudar outros usuários. Prever a utilidade das opiniões não é uma tarefa simples. Muita informação é necessária para caracterizar a utilidade das opiniões e, além disso, a utilidade é considerada um critério subjetivo, dependente de fatores extra-textuais, como a necessidade de informações do próprio leitor e o tempo disponível para leitura e avaliação de opiniões suficientes. Muitos trabalhos foram realizados desde a origem da área, mas, para a língua portuguesa, poucos avanços foram realizados até o momento. Este trabalho de doutorado teve como objetivo investigar e propor métodos para a tarefa de classificação automática da utilidade de opiniões para a língua portuguesa, utilizando informações linguísticas e de metadados disponíveis. Para atingir esse objetivo, um córpus de dois domínios, aplicativos para smartphones e filmes, foi coletado e anotado. Avaliou-se qualitativamente e quantitativamente uma ampla gama de atributos e técnicas que pudessem caracterizar a utilidade das opiniões e, dessa forma, foram descobertos fatores relevantes para a discriminação das opiniões úteis das não úteis. Nesta tese de doutorado, foram discutidos os principais desafios da área de pesquisa, e foi estabelecido um benchmark para a tarefa na língua portuguesa. Além disso, desenvolveu-se um novo método baseado em grafos que pode ser usado como alternativa para classificação da utilidade de opiniões. Por fim, elaboramos um método que pode classificar com excelente acurácia as opiniões de aplicativos e com boa acurácia as opiniões de filmes.
Title in English
Helpfulness classification of online reviews in brazilian portuguese
Keywords in English
Natural language processing
Opinion helpfulness
Opinion mining
Abstract in English
The amount of user-generated data on the Web is increasing. Among these contents, opinions are considered a special case. This type of text usually includes colloquialisms, noise, errors, slangs, abreviations, etc. Therefore, they are difficult for machines to process and can be difficult for humans to read in some cases. Particularly, for a consumer looking for useful and quality content to help with their decisions, such as choosing a product to buy or a movie to watch, this task is becoming more and more complicated, due to the previously mentioned problems and the great offer of opinions on the Web. The task of Modeling and Prediction of Opinion Helpfulness aims at studying, modelling and processing user-generated opinions in order to automatically select the most useful ones and highlight them to assist other users. Predicting the usefulness of opinions is not a simple task. Much information is needed to characterize the helpfulness of opinions and, moreover, helpfulness is considered a subjective criterion, dependent on extratextual factors, such as the readers own information needs and the time available for reading and evaluating sufficient opinions. Many works have been done since the origin of the area, but, for the Portuguese language, few works have been published so far. This PhD work aimed to investigate and propose methods for the task of automatic classification of the helpfulness of opinions for the Portuguese language, using linguistic information and available metadata. To achieve this goal, a corpus of two domains, smartphone apps and movies, was collected and annotated. A wide range of attributes and techniques that could characterize the helpfulness of the opinions were evaluated qualitatively and quantitatively and, in this way, relevant factors were discovered for the discrimination of useful opinions from those that were not. In this doctoral thesis, the main challenges of the research area were discussed, and a benchmark for the task in the Portuguese language was established. In addition, a new graph-based method was developed that can be used as an alternative for classifying the helpfulness of opinions. Finally, we developed a method that can classify app reviews with excellent accuracy and movie reviews with good accuracy.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2023-08-30
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.