Gestão de dados de pesquisa: o que precisamos saber hoje!

SIBiUSP 2018

O universo da produção científica está em constante e avassaladora expansão. Para manter a integridade, a eficiência e a reprodutibilidade das pesquisas, as universidades e os pesquisadores devem garantir que os dados relevantes relacionados aos resultados e às publicações geradas pelas pesquisas estejam organizados, sejam arquivados, tornem-se acessíveis e sejam citados, permitindo que os resultados e a metodologia de coleta possam ser verificados ou mesmo reutilizados no futuro.

O recente Comunicado da Fapesp sobre o requisito do Plano de Gestão de Dados para projetos temáticos ressalta “a gestão adequada dos dados de pesquisa como parte essencial das boas práticas de pesquisa” e a importância de as informações oriundas de projetos financiados pela Fundação serem “gerenciadas e compartilhadas de forma a garantir o maior benefício possível para o avanço científico e tecnológico” [1].

Cada vez mais as instituições e os financiadores de pesquisa (agências de fomento, universidades, empresas, governos, etc) estão solicitando aos pesquisadores que os dados que sustentam publicações científicas, ou quaisquer dados com valor de longo prazo, sejam adequadamente organizados, armazenados e disponibilizados. Isso é crucial para manter a integridade e a reprodutibilidade da pesquisa. 

Na prática, gerenciar os dados de pesquisa é responsabilidade dos pesquisadores e das instituições. Espera-se que os pesquisadores e as instituições compartilhem dados, amostras, coleções físicas e outros materiais de apoio criados ou reunidos no decurso do trabalho de pesquisa. A gestão de dados de pesquisa deve ser importante para universidades, financiadores, pesquisadores e bibliotecários. É preciso criar mecanismos facilitadores para que isso aconteça, observando aspectos operacionais, procedimentais, políticos, culturais e educacionais.

Exigido por agências públicas e privadas de apoio à pesquisa científica dos Estados Unidos, da Europa e Austrália, o plano de gestão de dados de pesquisa é parte do planejamento de projeto e integra a documentação de pesquisa. Significa que atualmente, é necessário não apenas explicitar o escopo e objetivo da pesquisa, como também os dados que serão produzidos, como serão tratados, armazenados, preservados e disseminados. Sendo assim, precisamos saber como gerenciar nossos dados de pesquisa hoje, agora mesmo!

Nesse caso, por onde começar? Tenha em mente diferentes aspectos importantes para os pesquisadores e as instituições. Vamos começar pelo ‘menor’ dos problemas: os aspectos operacionais. 

== ASPECTOS OPERACIONAIS ==

Tudo começa com o planejamento. Tenha em mente a tipologia de dados e os requisitos necessários para estruturar um Plano de Gestão de Dados de acordo com cada área de conhecimento. Organizar cuidadosamente seus arquivos irá poupar tempo e frustração, ajudando você e seus colegas a encontrar o que você precisa quando você precisar. Planejar com antecedência suas necessidades e atividades de gerenciamento de dados ajudarão a garantir que:

  • seus dados serão robustos e livres de erros de versão e lacunas na documentação
  • possui recursos tecnológicos adequados (por exemplo, espaço de armazenamento, tempo de equipe de suporte)
  • seus dados são copiados e protegidos contra perda súbita ou corrupção
  • você pode atender aos requisitos legais e éticos
  • você pode compartilhar seus dados finalizados publicamente, se você e / ou seu financiador desejar
  • seus dados permanecerão acessíveis e compreensíveis no futuro próximo, médio e distante [2]. O planejamento é essencial.

a) Dez razões para elaborar um Plano de Gestão de Dados (PGD)

Segundo a Comissão de Energia Nuclear do Ministério da Ciência, Tecnologia, Inovações & Comunicações, as dez principais razões para a criação de um PGD são as seguintes:

  1. Ajustar o seu projeto de pesquisa às políticas mandatórias da sua instituição e/ou dos órgãos de fomento à pesquisa;
  2. Assegurar a integridade da pesquisa e o seu potencial de replicação;
  3. Assegurar que os dados e demais registros de pesquisa sejam acurados, completos, autênticos e confiáveis;
  4. Aumentar a sua eficiência como pesquisador – um plano que organize os dados e seu armazenamento permite que você foque na sua pesquisa. Você estará mais capacitado a localizar e usar os seus dados e compartilhá-los com os seus colaboradores;
  5. Permitir que os seus dados sejam compreensíveis agora e no futuro – se os dados são bem documentados antes e durante a formação da coleção de dados, eles serão mais facilmente entendidos e reutilizados;
  6. Economizar tempo e recursos a longo prazo;
  7. Aumentar a segurança dos dados e minimizar os riscos de perda;
  8. Evitar a duplicação de esforços na recoleta ou regeração dos dados, possibilitando que outros pesquisadores se beneficiem dos seus dados e os interprete em outros contextos e com novas visões;
  9. Aumentar a visibilidade da pesquisa – se os seus dados foram planejados para estarem organizados e corretamente arquivados, eles poderão ser identificados, recuperados e citados, aumentando a visibilidade da sua pesquisa e o seu prestígio como pesquisador;
  10. Tornar mais fácil a preservação e o arquivamento – ajustando antecipadamente a geração de dados tomando como referência as práticas, formatos e demais padrões mais adequados ao arquivamento e à preservação de longo prazo, torna a gestão de dados mais fácil e menos custosa; além do mais, tornam os dados mais aderentes aos requisitos dos repositórios e centros de dados.

Toda Universidade deve possuir funcionários de suporte para auxiliar a criação de um plano de gerenciamento de dados, incluindo funcionários de apoio à pesquisa do Departamento, a equipe de TI da faculdade, bibliotecários e financiadores. Ainda assim, a efetiva gestão das atividades de pesquisa e dos dados é atribuição do pesquisador. É ele que deve se organizar e organizar seus documentos de pesquisa.

b) Utilize um Software de Anotações de Pesquisa ou seu Caderno de Laboratório

Os cadernos de laboratório são elementos fundamentais à prática científica uma vez que auxiliam na organização das atividades. Integram os documentos de laboratório que incluem além dos referidos cadernos, Procedimentos Operacionais Padrão (POPs), Formulários, Protocolos, Relatórios, Log de Instrumento e Registros de Instrumentos. Tais documentos, por sua vez, são parte do conjunto de documentos de pesquisa.

Atualmente, estão disponíveis aos pesquisadores cadernos eletrônicos de laboratório (ELNs), que são sistemas de software para documentar a pesquisa. Existem numerosos produtos e, no seu sentido básico, visam substituir cadernos de laboratório de papel com versões digitais. No entanto, os ELNs são muito mais do que isso e oferecem uma série de recursos e benefícios que podem melhorar o fluxo de trabalho da pesquisa.

Na USP, a Pró-Reitoria de Pesquisa, por meio do Comitê de Boas Práticas de Pesquisa, recomenda o uso do sciNoteFree Open Source Electronic Lab Notebook – para promover a reprodutibilidade das pesquisas. Já o Instituto de Ciências Biomédicas da USP padronizou seu Caderno de Laboratório, instrumento oficial de registro das atividades de pesquisa científica desenvolvida pelos pesquisadores dos diferentes níveis e categorias em atividade nos laboratórios do Instituto, e recomenda que o mesmo, bem como os resultados anotados nele sejam, após a finalização da pesquisa, armazenados na Biblioteca.

c) Como devo organizar meus arquivos de dados?

Se você está trabalhando em um computador autônomo ou em uma unidade em rede, a necessidade de estabelecer um sistema que permite acessar seus arquivos, evitar duplicações e garantir que seus dados possam ser copiados, requer um pouco de planejamento. Um bom lugar para começar é desenvolver uma estrutura de pastas lógicas. As dicas a seguir devem ajudá-lo a desenvolver esse sistema:

  • Use pastas – agrupe arquivos dentro de pastas para que informações sobre um tópico específico estejam localizadas em um só lugar
  • Separe os arquivos de pesquisa de seus arquivos pessoais – não os mantenha juntos.
  • Siga os procedimentos existentes – verifique se há abordagens estabelecidas em sua equipe ou departamento que você pode adotar
  • Adote descrições padronizadas e detalhadas. Caso use siglas, lembre-se de fornecer, junto aos dados, uma lista de siglas e seus significados.
  • Nomeie pastas apropriadamente – nomeie pastas de acordo com os tópicos da pesquisa, as áreas de trabalho a que se relacionam e não após pesquisadores individuais ou estudantes. Isso evita a confusão em espaços de trabalho compartilhados se um membro da equipe sai e torna o sistema de arquivos mais fácil de navegar para novas pessoas se juntando ao espaço de trabalho.
  • Seja consistente – ao desenvolver um esquema de nomeação para suas pastas, é importante que, uma vez que você tenha decidido um método, fique com ele. Se você puder, tente concordar com um esquema de nomeação desde o início do seu projeto de pesquisa.
  • Obedeça a uma estrutura hierárquica – comece com um número limitado de pastas para os tópicos mais amplos e, em seguida, crie pastas mais específicas nesses.
    Separe o trabalho contínuo e concluído – à medida que você começa a criar muitas pastas e arquivos, é uma boa ideia começar a pensar em separar seus documentos antigos daqueles em que você está trabalhando atualmente.
  • Mantenha os dados protegidos por senha – Utilize senhas difíceis de serem decifradas e atualize a senha de acesso a seus arquivos de dados periodicamente.
  • Arquivos ativos e arquivos antigos – tente manter sua pasta “Meus documentos” para os arquivos em que você está trabalhando ativamente, e, a cada mês ou mais, mova os arquivos para os quais você não está mais trabalhando em uma pasta ou em uma pasta diferente, como uma pasta na sua área de trabalho, um arquivo especial pasta ou disco rígido externo.
  • Backup – assegure-se de que seus arquivos, estejam eles em sua unidade local ou em uma unidade de rede, sejam copiados.
  • Revise registros – habitue-se a avaliar materiais regularmente ou no final de um projeto para garantir que os arquivos não sejam mantidos desnecessariamente. Coloque um lembrete em seu calendário para que você não se esqueça! [2].

d) Como nomear meus arquivos?

Decida uma convenção de nomeação de arquivo no início do seu projeto. Nomes de arquivos úteis são consistentes, significativos para você e seus colegas, permitem  que você encontre o arquivo facilmente, Será útil se seu Departamento / Equipe de Projeto concordar com os seguintes elementos de um nome de arquivo:

  • Vocabulário – escolha um vocabulário padrão para nomes de arquivos, para que todos usem um idioma comum
  • Pontuação – decidir sobre as convenções sobre quando e se usar símbolos de pontuação, maiúsculas, hifens e espaços
  • Datas – concordar em um uso lógico das datas para que elas sejam exibidas cronologicamente de modo padronizado, ou seja, por exemplo, AAAA-MM-DD
  • Ordem – confirme qual elemento deve ser o primeiro, de modo que os arquivos do mesmo tema sejam listados juntos e, portanto, possam ser facilmente encontrados
  • Números – especifique a quantidade de dígitos que serão utilizados na numeração para que os arquivos sejam listados numericamente, e. 01, 002, etc.[2]

e) Como posso acessar meus arquivos de dados para continuar a pesquisa?

Se você é como a maioria das pessoas, provavelmente usará uma variedade de métodos para acessar arquivos de forma remota (por exemplo, memória USB, laptop, arquivos de e-mail para você, etc.). Este método misto de transferência e acesso de dados é conveniente no curto prazo, mas pode ser caótico (ou mesmo perigoso) no longo prazo, porque: pode dificultar a descrição da versão do arquivo / banco de dados / etc; torna mais fácil perder ou sobregravar seus arquivos; sem querer, pode acontecer o compartilhamento acidental de seus arquivos confidenciais. 

Se você armazena arquivos em uma rede fornecida por seu departamento, faculdade ou grupo de pesquisa, vale a pena descobrir se você pode fazer logon remotamente usando uma Virtual Private Network (VPN). Pergunte ao analista local ou consulte a página de informações da VPN da Universidade sobre o acesso remoto. Essas contas podem ser um desafio para configurar inicialmente, mas são extremamente úteis. Uma VPN geralmente permitirá a você acessar arquivos com segurança, salvar novos arquivos / versões, acessar remotamente qualquer pasta que você possa acessar no site. Verifique também: no seu departamento / faculdade a existência de uma “área de trabalho remota”. Isso muitas vezes lhe dá acesso remoto ao software na rede, além de arquivos.

f) Como começar a escrever um Plano de Gestão de Dados?

Grande parte do gerenciamento de dados de pesquisa é simplesmente uma boa prática de pesquisa, então fique tranquilo. Os planos de dados são apenas uma maneira de garantir (e / ou mostrar) que você pensou em como criar, armazenar, fazer backup, compartilhar e preservar seus dados. A maioria dos financiadores espera que você prepare um plano de gerenciamento de dados ao solicitar uma bolsa de pesquisa. Ainda que devam ser seguidas orientações específicas, em termos gerais, todo Plano deve conter (a) uma breve descrição da pesquisa, dos dados e informações a serem reunidas – a natureza, escopo e escala dos dados que serão gerado ou coletados. Uma boa descrição dos dados ajudará os avaliadores a entender as características dos dados, seus relacionamento com dados existentes e quaisquer riscos de divulgação que possam ser aplicados. Outro ponto importante é explicitar (b) como os dados serão acessados e compartilhados, se serão depositados em algum repositório, em um website, quando os dados serão disponibilizados, esclarecendo também questões éticas e de privacidade. Termos como “totalmente anônimo” ou “estritamente confidencial” devem ser evitados, pois muitas vezes são impossíveis de definir. Melhor é indicar como os dados serão anonimizados (por exemplo, removendo todas as informações pessoais que poderiam identificar diretamente um indivíduo) e que, embora os dados sejam disponibilizados para outros pesquisadores, a confidencialidade será protegida. Deve-se explicitar também (c) que tipo de metadados serão produzidos. Bons metadados descritivos são essenciais para o uso efetivo de dados. Os metadados são frequentemente a única forma de comunicação entre o analista secundário e produtor de dados, então eles devem ser abrangentes e fornecer todas as informações necessárias para uma recuperação e análise precisas. O Plano deve conter também um parágrafo sobre os (d) direitos de propriedade intelectual, explicitando quem terá direitos de propriedade intelectual dos dados e outras informações criadas pelo projeto? Estes direitos serão transferidos para outra organização para distribuição de dados e arquivamento? Para divulgar dados e arquivos é preciso ter uma declaração clara dos dados do produtor, de quem possui os dados. A universidade do pesquisador principal é geralmente considerada titular do direitos de propriedade intelectual. Uma boa ideia é adaptar as orientações da NSF às necessidades locais, seguindo as indicações da Fapesp [1]. 

Ainda de acordo com a Fapesp, Exemplos de PGDs podem ser encontrados nos endereços https://dmptool.org/ e https://dmponline.dcc.ac.uk/, respectivamente associados a Planos de Gestão de Dados nos EUA e países do continente europeu, incluindo formato para submissão ao H2020. Os dois endereços disponibilizam centenas de modelos de planos que foram submetidos a um grande número de agências de fomento, para as mais diversas áreas do conhecimento. Além disto, estes sites ajudam a gerar um Plano, orientando o pesquisador com perguntas em questionários online. Para usar estas ferramentas, é preciso criar uma conta de usuário, sendo de uso livre para qualquer usuário. 

O Guia Prático para Criação de um Plano e Compartilhamento de Dados da NSF recomendado pela Fapesp, traz uma descrição detalhada de como preparar um plano, seu conteúdo, e a importância do compartilhamento de dados para o avanço da ciência. Embora específico para a Saúde, o texto é aplicável a um grande leque de áreas do conhecimento. As orientações disponíveis no website da National Science Foudation (NSF) e adotadas pela Fapesp também podem ser úteis. Fato é que o Plano não deve ter mais que duas páginas.

Além disso, para cada Área do Conhecimento, ainda segundo a NSF, devem ser seguidas orientações específicas. Consulte de acordo com sua área as orientações, requisitos e exemplos a seguir:

Fonte: Fapesp, 2017.

g) Quais dados de pesquisa devo guardar?

Para saber quais dados devem ser armazenados e preservados e quais não devem, responda as perguntas abaixo, toda vez que for decidir.

  • Meu financiador ou a universidade precisam que eu mantenha esses dados e / ou o disponibilize por um certo período de tempo?
  • Esses dados constituem os “registros vitais” de um projeto, organização ou consórcio e, portanto, precisam ser mantidos indefinidamente?
  • Tenho os direitos legais e de propriedade intelectual para manter e reutilizar esses dados? Caso contrário, estes podem ser negociados?
  • Existe documentação suficiente e informações descritivas (‘metadados’) para explicar os dados e permitir que os dados ou registros sejam encontrados onde quer que ele seja armazenado?
  • Se eu precisar pagar para manter os dados, poderei pagar?

Melhores formatos para preservação

Se você não tem conhecimento de nenhum padrão disciplinar, estes são alguns bons formatos de arquivo para a preservação dos tipos de dados mais comuns:

  • Dados textuais: XML, TXT, HTML, PDF
  • Dados tabulares (incluindo planilhas): CSV
  • Bancos de dados: XML, CSV
  • Imagens: TIFF, PNG, JPEG (nota: JPEGS são um formato que perde informações quando os arquivos são salvos novamente, então use-os apenas se você não estiver preocupado com a qualidade da imagem)
  • Áudio: FLAC, WAV, MP3

h) Onde armazenar meus dados de pesquisa?

Soluções de armazenamento podem simplificar o controle de versão e colaboração com outras pessoas. Você pode ser obrigado por seu PI ou financiador a armazenar seus dados em um determinado local, ou você pode ter mais opções disponíveis. Não importa qual solução você use, aplicam-se as duas regras douradas de armazenamento: (a) Sempre que possível, armazene apenas o que você precisa manter; (b) Armazene dados cruciais em mais de um local seguro.

Os meios de armazenamento portáteis, como memory sticks (USB sticks), embora sejam convenientes para cópias temporárias ou secundárias, acessíveis a apenas uma pessoa por vez, são mais arriscados e vulneráveis ​​a perdas e danos. É importante não confiar neles como sua única cópia de dados importantes.

Informe-se sobre Repositórios para armazenar dados de pesquisa. O periódico Nature recomenda alguns, para seis grandes áreas do conhecimento, incluindo Biológicas, Saúde, Exatas e Ciências Sociais: https://www.nature.com/sdata/policies/repositories  Atualmente, há diversos repositórios temáticos de dados de pesquisa disponíveis e abertos a todos os pesquisadores. Algumas universidades e institutos de pesquisa iniciaram seus próprios repositórios institucionais de dados de pesquisa e dados administrativos. Consulte também:

Figshare é uma entidade comercial com fins lucrativos, o Zenodo é administrado pelo CERN e foi apoiada pelo projeto OpenAIRE da União Européia, enquanto o Dryad é uma entidade sem fins lucrativos, apoiada por bolsas de pesquisa e taxas de adesão para organizações. O Figshare fornecerá um DOI para qualquer trabalho depositado, que inclua dados. O Zenodo também fornece DOI para qualquer tipo de resultado de pesquisa, incluindo conjuntos de dados. Já o Dryad fornece DOIs para envios de dados ligados a artigos (por uma taxa, que inclui armazenamento, cura, arquivamento e checagem para melhores práticas).

Repositórios temáticos podem ser a melhor opção para armazenar seus dados de pesquisa. Ao definir qual repositório utilizar, observe que os repositórios devem ser sustentáveis ​​e ter políticas de acesso aos dados de longo prazo. Independentemente disso, sua instituição tem a responsabilidade de garantir que os dados sejam salvaguardados e estejam acessíveis, muitas vezes através da criação de um repositório institucional local baseado em softwares como eprints, Dspace.ou Dataverse.

Algumas considerações gerais ao decidir onde depositar seus dados:

  • Os termos e condições do Repositório são aceitáveis?
  • No Repositório, onde seus dados serão armazenados?
  • No Repositório, é permitido informar seu ID ORCID? O ORCID fornece a cada acadêmico um identificador exclusivo, e é cada vez mais exigido pelos editores e pelos repositórios de dados no estágio de submissão de resultados da pesquisa. O uso da ORCID garante que as atividades de pesquisa de cada academia se distinguem das de outros com nomes semelhantes.
  • No Repositório, o seu conjunto de dados receberá um DOI permanente? O uso de Localizadores de Recursos Uniformes (URLs) persistentes, como os Identificadores de Objetos Digitais (DOIs), garante que seus dados tenham uma localização permanente. O URL ou o DOI não serão alterados se você deixar a Universidade, ou se o site for reescrito – o link para seus dados é permanente.
  • O Repositório escolhido é popular e utilizado pelas pessoas em sua disciplina/área de conhecimento?
  • O Repositório permite que você descreva seus dados suficientemente, tornando seus dados fáceis de encontrar? [2]

i) Como compartilhar meus dados de pesquisa?

O compartilhamento de dados refere-se à definição se os dados da pesquisa serão depositados em algum repositório, em um website, quando os dados serão disponibilizados, como serão tratadas as questões éticas e de privacidade. Diz respeito também aos metadados – dados sobre os dados – elementos de descrição como, por exemplo, identificador DOI, criador, título, publicador, ano de publicação.

Tornar mais fácil para os outros reutilizar os materiais que foram produzidos é o princípio de qualquer compartilhamento. Uma maneira relativamente simples de tornar mais fácil para os outros reutilizar ferramentas, dados ou outros conteúdos que você produz é adicionar uma licença Creative Commons. Por exemplo, ‘By-Attribution, Non-Commercial’ é uma licença Creative Commons comum – quando você marca seu arquivo, imagem ou informação com isso, isso significa que qualquer pessoa pode usar suas informações da maneira que quiserem, desde que atribuam a você a autoria e não utilizem para fins comerciais. As licenças Creative Commons são frequentemente utilizadas para materiais online, mas também pode incluir estes em materiais impressos.

j) Como aumentar a visibilidade e a descoberta de seus dados?

Os conjuntos de dados podem ser cadastrados em Catálogos Institucionais como o Dedalus, Catálogos Nacionais, Repositórios Institucionais e Temáticos. Catálogos e Bibliotecas Virtuais de Financiadores e Agências, como a BV Fapesp. Podem ser mencionados também em perfis profissionais, websites de Institutos, Faculdades e Grupos de Pesquisa. Podem ainda ser registrados no ORCiD ou mesmo em redes de pesquisa como ResearchGate e Academia.

k) Como citar seus dados de pesquisa

Segue exemplo de referência de artigo de um docente da USP, ao qual encontra-se agregada a referência dos dados. O conjunto foi localizado no Dryad.

== REFERÊNCIAS ==

[1] FAPESP. Planos de gestão de dados se incorporam a projetos de pesquisa no Brasil. Revista Pesquisa Fapesp, ed. 260, outubro de 2017. Disponível em: < http://revistapesquisa.fapesp.br/2017/10/25/planos-de-gestao-de-dados-se-incorporam-a-projetos-de-pesquisa-no-brasil/ > Acesso em: 18 dez. 2017.

[2] UNIVERSITY OF CAMBRIDGE. Research Data Management Guide. Disponível em: < https://www.data.cam.ac.uk/data-management-guide/organising-your-data#Naming > Acesso em: 08 jan. 2018.

Leia também: DUDZIAK, Elisabeth. Dados de Pesquisa agora devem ser armazenados e citados.  2016. Disponível em: <https://www.aguia.usp.br/?p=6189> Acesso em: 05 jan. 2018.

Como citar este post [ABNT/NBR 6023/2002]:

DUDZIAK, Elisabeth A. Gestão de dados de pesquisa: o que precisamos saber hoje! 2018. Disponível em: <https://www.aguia.usp.br/?p=17574> Acesso em: DD mês. AAAA.

This article was published on