• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2022.tde-16082022-112629
Document
Auteur
Nom complet
Waqar Hassan
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2022
Directeur
Jury
Batista, Gustavo Enrique de Almeida Prado Alves (Président)
Matsubara, Edson Takashi
Ponti, Moacir Antonelli
Silva, Diego Furtado
Titre en anglais
An efficient and accurate method for binary quantification
Mots-clés en anglais
Classification
Distribution matching methods
Machine learning
Mixture methods
Quantification
Supervised learning
Resumé en anglais
Quantification is a prosperous research topic that estimates the class prevalences in a test sample. Quantification and classification share several similarities. For instance, the most straightforward (yet biased) quantification method, Classify & Count (CC), utilizes a classifier to predict the class of each instance in a sample and compute the class ratios. However, CC presents a systematic error that grows as the class distribution shifts from a distribution it optimally quantifies. This issue has motivated quantification researchers to propose more reliable counting methods. Such proposals mostly outperform the CC method but are significantly more inefficient during inference. Nonetheless, the rapid inference time is vital for numerous applications. For instance, sensor data, tweets analysis, and news feeding need to process fast-paced streams or a large volume of data. This thesis investigates and proposes a highly efficient quantification algorithm capable of processing vast volumes of data typically required by Big Data and Data Stream applications. Our main technical contribution is Sample Mean Matching (SMM), a quantifier able to count a billion instances per second with state-of-the-art accuracy. Moreover, the performance of quantification methods varies with the changes in test set size, distribution shift, and balanced or imbalanced training data cases. Therefore, we integrate different setups from the literature and recommend a comprehensive experimental setup for assessing the quantifiers performances.
Titre en portugais
Um método eficiente e preciso para quantificação binária
Mots-clés en portugais
Aprendizado de máquina
Aprendizado supervisionado
Classificação
Métodos de correspondência de distribuição
Métodos de mistura
Quantificação
Resumé en portugais
A quantificação é um tópico de pesquisa próspero que estima as prevalências de classe em uma amostra de teste. Quantificação e classificação compartilham várias semelhanças. Por exemplo, o método de quantificação mais simples (ainda que tendencioso), Classifica & Conta (CC), utiliza um classificador para prever a classe de cada instância em uma amostra e calcular as proporções das classes. No entanto, CC apresenta um erro sistemático que cresce à medida que a distribuição de classe se distancia de uma distribuição que ela quantifica de maneira ideal. Esta questão tem motivado pesquisadores em quantificação a propor métodos de contagem mais confiáveis. Tais propostas superam o método CC, mas são significativamente mais ineficientes durante a inferência. No entanto, o tempo de inferência rápido é vital para inúmeras aplicações. Por exemplo, dados de sensores, análise de tweets e feed de notícias precisam processar fluxos rápidos ou um grande volume de dados. Esta tese investiga e propõe um algoritmo de quantificação altamente eficiente capaz de processar grandes volumes de dados normalmente requeridos por aplicações de Big Data e fluxo de dados. Nossa principal contribuição técnica é o Sample Mean Matching (SMM), um quantificador capaz de contar um bilhão de instâncias por segundo com precisão similar ao estado-da-arte. Além disso, o desempenho dos métodos de quantificação varia com as mudanças no tamanho do conjunto de teste, mudança de distribuição e casos de dados de treinamento equilibrados ou desequilibrados. Portanto, integramos diferentes configurações da literatura e recomendamos uma configuração experimental abrangente para avaliar os desempenhos de quantificares.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2022-08-16
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.