• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.55.2020.tde-14092020-175138
Document
Author
Full name
Bruno Elias Penteado
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2020
Supervisor
Committee
Isotani, Seiji (President)
Arakaki, Ana Carolina Simionato
Guilherme, Ivan Rizzo
Siqueira, Sean Wolfgand Matsui
Title in Portuguese
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
Keywords in Portuguese
Dados abertos
Dados abertos conectados
Dados abertos governamentais
Design science research
Modelo de ciclo de vida
Abstract in Portuguese
Contexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura.
Title in English
Infrastructure model for publishing quality linked open government data
Keywords in English
Design science research
Lifecycle model
Linked open data
Open data
Open government data
Abstract in English
Context: The production os open government data (OGD) has increased since the last decade, being considered as one of the fundamental pillars of modern democracy. The availability of these data carries the promises of economic development, through products and services based on these data; social control, by making it transparent to the society the actions and outcomes from the government; the basis for public policies, by generating indicators of effectiveness throughout time, serving for researches or as a follow-up for the government itself; corruption deterrence, by the accountability of budget execution of public policies. Different public bodies release information of their own scope, making it possible that data consumers combine different data sources to answer questions that were not previously possible. Problem: Although there was some progress in different levels around these axes, multiple factors hamper these benefits from being realized on a larger scale. From the technological perspective, the availability of data for combination, the standardized preparation, and their interoperability are arguably the most impacting factors for their production. Semantic technologies have been developed to address this problem of interoperability by representing information so that they can be interpreted unequivocally by humans and machines alike, the so-called linked data. The overlap of these areas carries the possibility of making government information easier to process, including inferring implicit information. Current methodologies present limitations such as their perception of being too generic and not addressing quality systematically, making data publishers prefer to adopt ad-hoc publication practices. Objective: Thus, this thesis aims to develop a high quality linked open government data (LOGD) publication infrastructure for the Web ecosystem, that uses Web standards to ensure interoperability in many aspects. Methods: A systematic mapping was carried out to identify existing methodologies, their commonalities and their limitations regarding the problems found in their practice. With this knowledge, the Design Science Research Methodology (DSR-M) was adopted, under the design science epistemiology, having a pragmatic character and which aims the development of artifacts to solve practical problems. It guided the selection of kernel theories to meet the requirements and to describe the search for a feasible design solution for the infrastructure artifacts. Empirical studies were carried out (both illustrative scenario and quasi-experiment) using real data sources, to evaluate the efficacy and ease of use of these artifacts, by meeting elicited requirements and by assessing through a quality assessment framework. Results: The proposed infrastructure is made by three artifacts: i) a publishing lifecycle model for LOGD, describing the activities, roles, tools verifications and outputs to each of the production phases; ii) a conceptual architecture, meeting data sharing practices and enabling data access for both humans and machines, considering verification checkpoints along the process; iii) a metadata model, compiling practices to describe linked open government data, aiming to make discovery and processing easier. The resulting product, created by the participants in the empirical study, showed a similar or superior level of quality to state-of-the-art datasets - concerning the linked data quality metrics selected for the evaluation. Conclusion: This thesis has made both theoretical and practical contributions to the field of linked open government data. In short, it materializes meeting the requirements of open government and data employing an infrastructure with multiple components that enables both humans and machines to search, access and process quality data, detailing different alternatives to instantiate the infrastructure.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2020-09-14
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2022. All rights reserved.