Data mining techniques applied to historical data of industrial processes as a tool to find time intervals suitable for system identification.

Santo, Giulio Cesare Mastrocinque

doi:10.11606/D.3.2020.tde-05032021-111034

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.3.2020.tde-05032021-111034

Documento

Disertación de Maestría

Autor

Santo, Giulio Cesare Mastrocinque (Catálogo USP)

Nombre completo

Giulio Cesare Mastrocinque Santo

Dirección Electrónica

Instituto/Escuela/Facultad

Escola Politécnica

Área de Conocimiento

Ingeniería de Sistemas

Fecha de Defensa

2020-12-07

Publicación

São Paulo, 2020

Director

Garcia, Claudio (Catálogo USP)

Tribunal

Garcia, Claudio (Presidente)
Aguirre, Luis Antonio
Kuramoto, André Seichi Ribeiro

Título en inglés

Data mining techniques applied to historical data of industrial processes as a tool to find time intervals suitable for system identification.

Palabras clave en inglés

Condition number
Data mining
Data quality
Data Science
Data segmentation
Effective rank
Historical data
Multivariable systems
System identification

Resumen en inglés

System Identification is a set of model estimation techniques traditionally used by in- dustries to improve and optimize their processes. Estimating dynamic process models requires the existence of informative and representative data of the system, which are usually generated through physical experiments on the plants. However, such procedures often need to be performed multiple times to produce adequate datasets, which may result in products that are out of specification. On the other hand, the emergence of powerful data storage and management software, as well as the constant development in the areas of mining and data science represent a potential paradigm break in industry, in which robust data-driven solutions can be adopted. The direct use of historical data to extract useful information from industrial processes is a central part of this work, in which it is proposed a comparison of data mining techniques with the objective of finding time intervals with sucient information to perform system identification. For this purpose, a detailed review on the literature regarding the problem is initially provided. Then, dierent mining algorithms are applied to both Single-Input Single-Output and Multiple-Input Multiple-Output systems operating in open-loop and in closed-loop. Simulated data is used to didactically exemplify how each method works and to validate the expected outcomes in an ideal scenario. Regressive models are then estimated with the obtained intervals, which are used to perform cross-validation. Finally, the proposed methods are applied to real multivariable data coming from an industrial petrochemical furnace. Results obtained through simulated data show that the proposed data mining strategies allowed the estimation of good models in cross-validation scenarios with 1, 10, 100 and infinite prediction steps. Real data applications, in turn, revealed to be challenging due to the noisy nature of the data and due to the scarcity of historical intervals in which all the inputs of the multivariable system are suciently active to estimate a model. However, this problem is overcome through the use of multiple intervals in the estimation process, elucidating that the adopted algorithms can also produce reasonable models in real scenarios.

Título en portugués

Técnicas de mineração de dados aplicadas a dados históricos de processos industriais como uma ferramenta para encontrar intervalos temporais adequados à identificação de sistemas.

Palabras clave en portugués

Ciência de dados
Dados históricos
Identificação de sistemas
Mineração de dados
Número de condicionamento
Posto efetivo
Qualidade de dados
Segmentação de dados
Sistemas multivariáveis

Resumen en portugués

A Identificação de Sistemas é um conjunto de técnicas para estimação de modelos tradicionalmente utilizada pelas indústrias para aprimorar e otimizar os seus processos. A estimação de modelos dinâmicos de processos requer a existência de dados informativos e representativos do sistema, os quais são normalmente gerados através da realização de experimentos físicos nas plantas. Tais procedimentos muitas vezes necessitam ser executados múltiplas vezes para produzir dados adequados, podendo resultar em produtos fora de especificação. Por outro lado, o surgimento de softwares poderosos de armazenamento e gerenciamento de dados e a constante evolução de conhecimento nas áreas de mineração e ciência de dados representam uma possibilidade de quebra de paradigma na indústria, em que soluções robustas orientadas a dados podem ser adotadas. A utilização direta de dados históricos para a extração de informações úteis de processos industriais é parte central deste trabalho, em que se propõe a comparação de técnicas de mineração de dados com o objetivo de encontrar intervalos temporais com informações suficientes para a realização de identificação de sistemas. Para esse propósito, uma revisão detalhada da literatura a respeito desse problema é inicialmente apresentada. Em seguida, diferentes algoritmos de mineração de dados são aplicados tanto em sistemas de uma entrada e uma saída quanto em sistemas multientradas, multisaídas operando em malha aberta e em malha fechada. Dados de simulação são utilizados para exemplificar didaticamente o funcionamento de cada método e para validar os resultados em casos ideais. Modelos regressivos são então estimados com os intervalos obtidos, os quais são utilizados para a realização de validações cruzadas. Finalmente, os métodos propostos são aplicados em dados reais multivariáveis provenientes de um forno industrial petroquímico. Os resultados obtidos através de dados de simulação mostram que as estratégias de mineração de dados propostas permitiram a obtenção de bons modelos em cenários de validação cruzada com 1, 10, 100 e infinitos passos de predição. As aplicações em dados reais, por sua vez, revelaram-se desafiadoras devido à natureza ruidosa dos dados e devido a escassez de intervalos históricos nos quais todas as entradas do sistema multivariável são suficientemente ativas para produzir um modelo. No entanto, esse problema é contornado através da utilização de múltiplos intervalos no processo de estimação de parâmetros, elucidando que os algoritmos adotados também permitem a obtenção de modelos razoáveis em cenários reais.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

GiulioCesareMastrocinqueSantoCorr20.pdf (13.74 Mbytes)

Fecha de Publicación

2021-04-28

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.