Data mining techniques applied to historical data of industrial processes as a tool to find time intervals suitable for system identification.

Santo, Giulio Cesare Mastrocinque

doi:10.11606/D.3.2020.tde-05032021-111034

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2020.tde-05032021-111034

Documento

Dissertação de Mestrado

Autor

Santo, Giulio Cesare Mastrocinque (Catálogo USP)

Nome completo

Giulio Cesare Mastrocinque Santo

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Engenharia de Sistemas

Data de Defesa

2020-12-07

Imprenta

São Paulo, 2020

Orientador

Garcia, Claudio (Catálogo USP)

Banca examinadora

Garcia, Claudio (Presidente)
Aguirre, Luis Antonio
Kuramoto, André Seichi Ribeiro

Título em inglês

Data mining techniques applied to historical data of industrial processes as a tool to find time intervals suitable for system identification.

Palavras-chave em inglês

Condition number
Data mining
Data quality
Data Science
Data segmentation
Effective rank
Historical data
Multivariable systems
System identification

Resumo em inglês

System Identification is a set of model estimation techniques traditionally used by in- dustries to improve and optimize their processes. Estimating dynamic process models requires the existence of informative and representative data of the system, which are usually generated through physical experiments on the plants. However, such procedures often need to be performed multiple times to produce adequate datasets, which may result in products that are out of specification. On the other hand, the emergence of powerful data storage and management software, as well as the constant development in the areas of mining and data science represent a potential paradigm break in industry, in which robust data-driven solutions can be adopted. The direct use of historical data to extract useful information from industrial processes is a central part of this work, in which it is proposed a comparison of data mining techniques with the objective of finding time intervals with sucient information to perform system identification. For this purpose, a detailed review on the literature regarding the problem is initially provided. Then, dierent mining algorithms are applied to both Single-Input Single-Output and Multiple-Input Multiple-Output systems operating in open-loop and in closed-loop. Simulated data is used to didactically exemplify how each method works and to validate the expected outcomes in an ideal scenario. Regressive models are then estimated with the obtained intervals, which are used to perform cross-validation. Finally, the proposed methods are applied to real multivariable data coming from an industrial petrochemical furnace. Results obtained through simulated data show that the proposed data mining strategies allowed the estimation of good models in cross-validation scenarios with 1, 10, 100 and infinite prediction steps. Real data applications, in turn, revealed to be challenging due to the noisy nature of the data and due to the scarcity of historical intervals in which all the inputs of the multivariable system are suciently active to estimate a model. However, this problem is overcome through the use of multiple intervals in the estimation process, elucidating that the adopted algorithms can also produce reasonable models in real scenarios.

Título em português

Técnicas de mineração de dados aplicadas a dados históricos de processos industriais como uma ferramenta para encontrar intervalos temporais adequados à identificação de sistemas.

Palavras-chave em português

Ciência de dados
Dados históricos
Identificação de sistemas
Mineração de dados
Número de condicionamento
Posto efetivo
Qualidade de dados
Segmentação de dados
Sistemas multivariáveis

Resumo em português

A Identificação de Sistemas é um conjunto de técnicas para estimação de modelos tradicionalmente utilizada pelas indústrias para aprimorar e otimizar os seus processos. A estimação de modelos dinâmicos de processos requer a existência de dados informativos e representativos do sistema, os quais são normalmente gerados através da realização de experimentos físicos nas plantas. Tais procedimentos muitas vezes necessitam ser executados múltiplas vezes para produzir dados adequados, podendo resultar em produtos fora de especificação. Por outro lado, o surgimento de softwares poderosos de armazenamento e gerenciamento de dados e a constante evolução de conhecimento nas áreas de mineração e ciência de dados representam uma possibilidade de quebra de paradigma na indústria, em que soluções robustas orientadas a dados podem ser adotadas. A utilização direta de dados históricos para a extração de informações úteis de processos industriais é parte central deste trabalho, em que se propõe a comparação de técnicas de mineração de dados com o objetivo de encontrar intervalos temporais com informações suficientes para a realização de identificação de sistemas. Para esse propósito, uma revisão detalhada da literatura a respeito desse problema é inicialmente apresentada. Em seguida, diferentes algoritmos de mineração de dados são aplicados tanto em sistemas de uma entrada e uma saída quanto em sistemas multientradas, multisaídas operando em malha aberta e em malha fechada. Dados de simulação são utilizados para exemplificar didaticamente o funcionamento de cada método e para validar os resultados em casos ideais. Modelos regressivos são então estimados com os intervalos obtidos, os quais são utilizados para a realização de validações cruzadas. Finalmente, os métodos propostos são aplicados em dados reais multivariáveis provenientes de um forno industrial petroquímico. Os resultados obtidos através de dados de simulação mostram que as estratégias de mineração de dados propostas permitiram a obtenção de bons modelos em cenários de validação cruzada com 1, 10, 100 e infinitos passos de predição. As aplicações em dados reais, por sua vez, revelaram-se desafiadoras devido à natureza ruidosa dos dados e devido a escassez de intervalos históricos nos quais todas as entradas do sistema multivariável são suficientemente ativas para produzir um modelo. No entanto, esse problema é contornado através da utilização de múltiplos intervalos no processo de estimação de parâmetros, elucidando que os algoritmos adotados também permitem a obtenção de modelos razoáveis em cenários reais.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

GiulioCesareMastrocinqueSantoCorr20.pdf (13.74 Mbytes)

Data de Publicação

2021-04-28

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.