Skip to Main Content

Gestão de dados de investigação (GDI): Gestão de Dados de Investigação

Apresentação

O guia Gestão de Dados de Investigação disponibiliza um conjunto de informações e recursos relevantes sobre Gestão de Dados de Investigação (GDI) para apoiar e orientar a comunidade de investigação da Universidade de Aveiro.

Dados de Investigação – O que são?

Dados de investigação incluem todos e quaisquer dados que sejam produzidos, obtidos ou usados durante o processo de investigação científica e, por isso, necessários para a validação de resultados científicos.


Podem ser considerados dados de investigação:
Registos de texto, imagens, ficheiros de vídeo, áudio, tabelas, resultados de questionários, entrevistas, observações, simulações, experiências, artefactos, fotografias, contribuições em redes sociais, estatísticas, resultados de experiências, observações resultantes de trabalhos de campo, resultados de questionários, inquéritos, gravações de entrevistas. Em suma, tudo aquilo que os investigadores produzem e desenvolve durante o processo de investigação.

Tipologia de dados

Podemos distinguir os tipos de dados de acordo com:


1. GRAU DE PROCESSAMENTO:
Dados em bruto
Dados de investigação obtidos diretamente do processo de investigação, instrumento ou metodologia científica, sem que tenham sofrido qualquer processamento ou transformação (Por exemplo: entrevista áudio/vídeo sem edição).

Dados processados
Dados resultantes da interpretação, processamento ou transformação de dados em bruto (Por exemplo: entrevista áudio/vídeo após edição).


2. PROVENIÊNCIA
Primários
Dados gerados pelo investigador no decorrer do seu projeto de investigação.

Secundários
Dados disponíveis (abertos), reutilizados por outros que não são os seus produtores. Este tipo de dados, para serem utilizados, necessitam de ter documentação de contextualização associada.


3.  DIMENSÃO
Big data
Dados (datasets) de grande dimensão, muitas vezes provenientes de instrumentos específicos.
[termo amplamente utilizado para nomear conjuntos de dados muito grandes ou complexos, com os quais os aplicativos de processamento de dados tradicionais ainda não conseguem lidar. São conjuntos de dados complexos que representam um desafio quanto ao seu armazenamento e tratamento.
os desafios colocados pelos Big Data incluem: análise, captura, curadoria, pesquisa, partilha, armazenamento, transferência e visualização, bem como informação sobre privacidade dos dados.]

Long tail data
Datasets de pequenas dimensões. Dada a sua natureza heterogénea, constituem um maior desafio em termos de planeamento, gestão, preservação e reutilização, devido à sua natureza heterogénea e singular.

 

4.  TIPO DE INVESTIGAÇÃO DESENVOLVIDA
Dados de observação
Capturados em tempo real, geralmente únicos e insubstituíveis (Por exemplo: imagens cerebrais, dados de inquéritos)

Dados experimentais
Recolhidos a partir de equipamentos de laboratório, podendo ser reprodutíveis (Por exemplo: cromatogramas, micro-ensaios)

Dados de simulação
Gerados a partir de modelos de teste, onde os modelos e metadados podem ser mais importantes do que os dados resultantes do modelo (Por exemplo: modelos económicos e climáticos)

Dados derivados ou compilados
Resultam do processamento ou de combinação de dados em bruto, podendo ser reprodutíveis.

Dados de referência ou canónicos
Coleções de pequenos conjuntos de dados (revistos por pares), podendo ser publicados e curados (Por exemplo: banco de dados de genes)
 

Ciclo de Vida dos Dados de Investigação

No processo de gestão de dados de investigação estão contempladas três fases distintas:


1. Fase de planeamento
Na fase de Planeamento deverão fazer-se as primeiras reflexões quanto à produção, preservação e partilha de dados de investigação, formalizadas num documento para o efeito, denominado, Plano de Gestão de Dados (PGD). Frequentemente, a submissão de um PGD constitui um requisito dos financiadores de ciência, aquando da submissão de projeto e concurso a financiamento.

2. Fase de produção
Após o início do Projeto e dos trabalhos de investigação são criados os primeiros dados no âmbito desse mesmo projeto. Nesta fase ocorrem todos os procedimentos e transformações aos dados, para que possam ser posteriormente publicados, passando deste modo do domínio restrito ao domínio público.

3. Fase de disseminação
Após a publicação dos dados estes podem finalmente ser acedidos e reutilizados gerando, eventualmente, novos dados de investigação e dando novamente reinício ao ciclo de dados.
A reutilização de dados é o objetivo final e central da implementação de estratégias de gestão e preservação de dados, constituindo o colmatar do ciclo e do processo que gera em si, o valor acrescentado aos dados de investigação produzidos (no domínio restrito).
É importante notar que podem existir casos, em que os dados produzidos são imediatamente publicados, ou seja, de modo que o momento da produção seja coincidente com o momento da disseminação. No entanto, tal só deverá acontecer após a reflexão cuidada dos passos apresentados nas fases distintas, pelo que não é considerada boa prática a disseminação sem que tenham existido previamente medidas concretas de curadoria e gestão.

 

Checklist das atividades a desenvolver ao longo do Ciclo de Vida dos Dados
Criar os dados - conceber a investigação, planos de gestão de dados, localizar datasets existentes, obter consentimentos, recolher e gerir dados, capturar e criar metadados. 
Processar os dados - digitar, transcrever, verificar, validar e limpar dados, anonimizar dados, descrever dados, gerir e armazenar dados. 
Analisar os dados - interpretar e produzir dados derivados, produzir outputs, escrever publicações, preparar os dados para partilhar. 
Preservar os dados - armazenar dados, fazer cópias de segurança e arquivar, migrar para o melhor formato e suporte, criar metadados. 
Dar acessos aos dados - distribuir e partilhar dados, definir licenças e as condições de acesso, promover os dados. 
Reutilizar os dados - acompanhar e realizar investigação, efetuar revisões, escrutinar descobertas científicas, ensinar e aprender.

Benefícios da gestão de dados

A gestão de dados de investigação é considerada um dos aspetos essenciais para um processo de investigação responsável. 

São vários os benefícios para a gestão de dados:

  • Cumprir os requisitos dos financiadores
  • Assegurar a integridade da investigação, evidenciando e validando os seus resultados através dos dados produzidos
  • Aumentar a eficiência e a reprodutibilidade  da investigação
  • Assegurar que os dados e registos de investigação são precisos, completos, autênticos e confiáveis
  • Economizar tempo e recursos a longo prazo
  • Aprimorar a segurança dos dados e minimizar o risco de perda dos mesmos
  • Prevenir a duplicação de esforços, permitindo que outros reutilizem os dados
  • Possibilitar a comparação de dados nos vários momentos do ciclo de investigação

Contactos e helpdesk

E-mail: rdm@ua.pt
Tel.: (351) 234 247 149 | Ext.: 22304

UAveiro RDM Center
https://www.ua.pt/pt/sbidm/rdm-center

Serviços de Biblioteca, Informação Documental e Museologia
Universidade de Aveiro
Campus Universitário de Santiago
3810-193 Aveiro - Portugal