• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.76.2022.tde-16112022-161304
Documento
Autor
Nombre completo
Daniel Cesar Braz
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2022
Director
Tribunal
Oliveira Junior, Osvaldo Novais de (Presidente)
Olivati, Clarissa de Almeida
Pedrini, Hélio
Santos, Lucas Fugikawa
Silva, Cicero Rafael Cena da
Título en portugués
Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
Palabras clave en portugués
Aprendizado de máquina
Biossensores
Câncer
COVID-19
Resumen en portugués
Esta tese explora o conceito de sistemas computacionais semi-automatizados de diagnóstico baseados em Aprendizado de Máquina (AM), em que diferentes tipos de dados de biossensores e de outras fontes são empregados. A partir de um pipeline base de AM, foram desenvolvidas quatro aplicações e diversos métodos foram implementados para cada uma das etapas/tarefas do pipeline. Como foram selecionados problemas desafiadores, um alto desempenho na acurácia do diagnóstico em geral só foi alcançado com algoritmos de AM supervisionado. Três aplicações foram em diagnóstico de câncer, sendo a primeira a partir de imagens de microscopia eletrônica de genossensores que detectam o biomarcador de PCA3 para câncer de próstata. Essas imagens foram usadas como entrada para algoritmos de AM supervisionado. Com os atributos de textura Local Complex Features and Neural Network (LCFNN) e o algoritmo Linear Discriminant Analysis (LDA) obteve-se uma taxa de acerto de 99,9% para classificação binária (sim/não para PCA3) e 88,3% para a classificação multiclasse em que se determina a concentração do biomarcador de PCA3. As outras duas aplicações envolveram a detecção de biomarcadores de câncer a partir de medidas elétrica/eletroquímica. A concentração da proteína p53, importante marcador de diferentes tipos de câncer, em amostras de urina e saliva sintéticas, foi determinada a partir de medidas eletroquímicas com imunossensores, em que voltamogramas foram analisados com os algoritmos Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM- L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) e Decision Tree (DT). O imunossensor otimizado exibiu acurácia de 100% com todos os algoritmos na maioria dos conjuntos de atributos construídos a partir dos dados brutos. No diagnóstico de câncer de boca, a partir de medidas de impedância elétrica com uma língua eletrônica em amostras de saliva de pacientes e voluntários, a maior acurácia de 86.7% foi obtida com o algoritmo SVM-kernel radial. Nesta aplicação, a acurácia da classificação multiclasse aumentou quando foram adicionadas informações clínicas dos pacientes, indicando a importância de combinação de diferentes tipos de dados nos sistemas computacionais. A quarta aplicação foi o diagnóstico de COVID-19 com a detecção da proteína S do SARS-CoV-2 a partir de mapas hiperespectrais de Espectroscopia Raman com Amplificação de Superfície (SERS) obtidos de imunossensores. Usando algoritmo LDA obteve-se uma acurácia de 100% na distinção dos mapas para resultado positivo e negativo para SARS-CoV-2. Os resultados dessas quatro aplicações demonstram a possibilidade de se desenvolverem sistemas automatizados de diagnóstico, pois as várias etapas/tarefas dos pipelines de AM podem ser implementadas sem necessidade de intervenção humana, mesmo quando se combinam imagens, dados clínicos e de testes clínicos.
Título en inglés
Machine learning applied to data of biosensors for diagnosis of cancer and COVID-19.
Palabras clave en inglés
Biosensors
Cancer
COVID-19
Machine learning
Resumen en inglés
This thesis explores the concept of computer-assisted diagnosis based on machine learning (ML), in which different types of data from biosensors and other sources are employed. Using a ML pipeline, we developed four applications using different methods in the steps of the pipeline. Because the diagnostic problems addressed were all challenging, a high performance in accuracy was only achieved with supervised ML algorithms. Three applications involved cancer diagnosis, the first being from electron microscopy images of genosensors that detect the PCA3 biomarker for prostate cancer. These images were used as input for the ML algorithms, with texture features from Local Complex Features and Neural Network (LCFNN) and the algorithm Linear Discriminant Analysis (LDA) leading to a 99.9% accuracy for binary classification (yes/no for PCA3) and 88.3% accuracy for the multiclass classification where the PCA3 biomarker concentration is determined. The other two applications were related to detection of cancer biomarkers using electrical or electrochemical measurements. The concentration of p53 protein, an important marker of different types of cancer, in synthetic urine and saliva samples was determined from electrochemical measurements with immunosensors, and the voltammograms were analyzed with the Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM-L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) and Decision Tree (DT) algorithms. The optimized immunosensor had 100% accuracy with all ML algorithms for most of the datasets with the raw voltammetric data. In the diagnosis of oral cancer using impedance measurements with an electronic tongue in saliva samples from volunteers and patients, the highest accuracy was 86.7% with SVM-kernel radial algorithm. In this application, the accuracy increased when patients clinical information was added, indicating the importance of combining different types of data in computer-assisted diagnosis systems. The fourth application was the diagnosis of COVID-19 with detection of the SARS-CoV-2 S protein using Surface-Enhanced Raman Spectroscopy (SERS). Using the algorithm LDA an accuracy of 100% was achieved in distinguishing spectra for positive and negative result for SARS-CoV-2. The results of these four applications demonstrate the possibility of developing automated diagnostic systems, as the various stages/tasks in the ML pipeline can be implemented without the need for human intervention, even when combining images, clinical information and data from biosensors.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2022-11-16
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.