Big Data e Ciência Aberta: monitorando a pesquisa e seu impacto

Financiadores de pesquisa em toda a Europa estão cada vez mais exigindo a adoção de práticas de Ciência Aberta para resultados de pesquisa financiados com recursos públicos visando apoiar o acesso aberto e gratuito a elementos valiosos do ciclo de vida da comunicação acadêmica. Das publicações em Acesso Aberto (OA) aos recentes desenvolvimentos do Plano S, da promoção e aceitação de práticas coordenadas de gestão de dados de pesquisa aos exercícios de avaliação de pesquisa mais avançados para entender a inovação e o impacto social, é necessário monitorar os resultados da pesquisa.

As infraestruturas digitais nacionais e da União Europeia estão respondendo a estas necessidades, incorporando e desenvolvendo ferramentas de monitoramento para fornecer dados comprovados sobre a adesão às políticas, os custos e o impacto da pesquisa, promovendo simultaneamente a interoperabilidade e compartilhamento dos resultados das pesquisas.

Nesse sentido, é oportuno destacar que, em maio de 2019, na Bélgica, foi realizado o Research Policy Monitoring in the Era of Open Science and Big Data Workshop, um evento de dois dias co-organizado pelo OpenAIRE e pelo Data4Impact, com o apoio da Science Europe.

O Workshop explorou as possibilidades de monitoramento e a gestão de indicadores de políticas de pesquisa, e como vinculá-los à infraestrutura e serviços. O primeiro dia foi focado em indicadores científicos abertos, uma vez que estes emergem de iniciativas nacionais e da UE, enquanto o segundo dia explorou aspectos mais avançados de indicadores de inovação e impacto social.

menti1

Alguns dos elementos abordados neste workshop de dois dias foram: 

  • Formas existentes de monitoramento da Open Science – o que e como
  • Aspectos de colaboração para alcançar um panorama de monitoramento contínuo através de infraestruturas abertas
  • Técnicas orientadas por dados para avaliação de pesquisas e seus links para dados abertos

Outros Pontos-chave:

  • Um conjunto de prioridades de quais elementos do ciclo de pesquisa precisam ser monitorados
  • Como as infraestruturas podem trabalhar juntas para fornecer coletivamente elementos de monitoramento e por onde começar
  • Uma compreensão mais profunda das ferramentas de monitoramento de benefícios pode trazer para o ciclo de vida do sistema operacional
  • Um vislumbre das tendências emergentes e futuras para a avaliação do impacto da pesquisa usando dados grandes (abertos) e Inteligência Artificial (IA).

O workshop explorou diferentes formas de monitoramento neste novo panorama da ciência aberta. Confira algumas das Apresentações. Então, qual é a prioridade?

Qualidade deve vir primeiroO discurso de apresentação por Marc Vanholsbeeck explorou o significado do impacto. A que realmente nos referimos usando o termo? Existem, na verdade, tantos tipos diferentes de impacto na pesquisa, mais de 3000 vias de acordo com a pesquisa disponível. Portanto, é difícil definir o que queremos medir. O tema principal foi: a qualidade vem em primeiro lugar, o impacto vem em seguida. 

Precisamos monitorar repositórios. A apresentação de  David Osimo lançou alguma clareza sobre isso. Poucos pesquisadores estão dispostos a compartilhar seus dados de pesquisa além de seus grupos de pesquisa. Um ponto interessante foi a necessidade de padronizar os dados de uso provenientes dos repositórios. Um claro caminho a seguir, certamente no cenário europeu, é treinar administradores de dados, cujo número ainda é muito pequeno.

Padronização de dados – A apresentação de Brecht Wyns and Christophe Bahim estabeleceu um plano de padronização de dados segundo o FAIR. Este GT vai longe para definir esses critérios e interpretar a implementação do FAIR. O estudo do cenário também será crucial. 

Coalizão S e qual monitoramento é necessárioÉ evidente que os membros da Coalizão S estão ocupados em aceitar todas as respostas. Haverá algumas mudanças, alterando os princípios-chave existentes. Isso inclui: sem pay-walls, mais flexibilidade no licenciamento CC-BY e um pouco de liberdade em permitir o híbrido, contanto que a revista possa demonstrar que está caminhando para um modelo de acesso totalmente aberto. E… a estrada verde é também uma rota muito importante para o acesso aberto, refletindo que as Coalizões fazem parte de um movimento global. O objetivo final é mudar o sistema de publicação, não para punir os pesquisadores. Ponto importante da Science Europe – lembre-se de que nem todos os financiadores dispõem de recursos suficientes para lidar com todas essas questões de monitoramento.

Os indicadores devem ser transparentesA apresentação de Dietmar Lampert enfatizou que – acima de tudo – os indicadores devem ser transparentes. Os resultados apresentados a partir de seu estudo (ZSI Research Policy and Development) deram algumas idéias interessantes: quais indicadores devem ser desenvolvidos e monitorados, tais como:

  • % de publicações de Pubicações em Acesso Aberto sem fator de impacto
  • Disponibilidade de meios para publicar facilmente resultados negativos

Os pesquisadores estão muito conscientes dos padrões dentro da pesquisa. Portanto, é uma progressão natural que podemos construir um para o sistema operacional. Outros fatores no fluxo de trabalho de pesquisa podem nos fornecer insights de monitoramento e precisamos explorá-los. A avaliação da pesquisa também deve aproveitar as oportunidades não vistas da era da ciência aberta e potencialmente novas abordagens tecnológicas e metodológicas. 

Algumas das principais conclusões do 1º dia:

  • Não colecione números apenas por colecionar.
  • Precisamos construir cuidadosamente os parâmetros. Isso pode levar a resultados perversos.
  • Precisamos de um selo confiável de qualidade para resultados e dados de pesquisa.
  • Precisamos de benchmarking para a ciência aberta
  • Tem que ser transparente
  • Precisamos ser capazes de comparar políticas facilmente

O segundo dia de workshop focou no uso de tecnologias de big data para avaliação avançada de pesquisa. O workshop foi liderado pelo Data4Impact – http://www.data4impact.eu/, um projeto do Horizonte 2020 financiado pela Comissão Europeia. O Data4Impact é pioneiro em técnicas de big data e desenvolve abordagens piloto que acompanham o legado e o impacto das atividades de pesquisa após o fim do financiamento público. Neste workshop, o consórcio do projeto apresentou uma série de indicadores desenvolvidos sobre o desempenho e o impacto social de mais de 40 programas de pesquisa no domínio da saúde pela primeira vez.

Resultado de imagem para data4impact

Data4Impact permite que formuladores de políticas, financiadores, especialistas, pesquisadores e o público em geral a “Pergunte menos e saiba mais” no contexto da avaliação avançada da pesquisa. O modelo analítico é estruturado em quatro fases distintas do ciclo de vida da pesquisa, incluindo (a) entrada, (b) taxa de transferência, (c) saída e (d) impacto. Baseando-se em novas técnicas de big data, tais como web scraping, crawling e mineração, bem como métodos de análise de texto, como Processamento de Linguagem Natural e aprendizado profundo, o Data4Impact reuniu dados para cada fase analítica.

Em seguida, O Data4Impact convidou os participantes para duas sessões paralelas, com foco na metodologia e indicadores Data4Impact nas áreas de: (a) Impacto Acadêmico e Relevância Societal da Pesquisa e (b) Impacto Econômico e Impacto Social e da Saúde. Confira aqui os slides e o resumo dos principais indicadores Data4Impact apresentados aos grupos de discussão, acompanhado de sua avaliação sobre utilidade e credibilidade em cada uma das áreas de foco. 

Principais conclusões do painel de discussão do 2º dia foram:

  • Big data mostra um enorme potencial de longo prazo, embora limitações devam ser consideradas (por exemplo, atraso de tempo, disponibilidade de dados, etc.).
  • Algumas formas de mitigar as limitações podem ser com o uso de múltiplas abordagens (por exemplo, quantitativa e qualitativa) e documentação adicional sobre como os indicadores são derivados e quais dados específicos são usados ​​para construí-los. Com maior transparência, os formuladores de políticas e financiadores podem chegar a um consenso sobre a definição de cada indicador, bem como soluções potenciais para questões-chave de dados.
  • Reprodutibilidade dos resultados considerando particularmente a usabilidade e facilidade de uso que são a força motriz por trás da adoção de novas tecnologias.
  • As principais lições aprendidas é que o Data4Impact mostra que agora temos uma maneira de descobrir e usar os dados que estão por aí, mas que não puderam ser coletados e usados ​​antes para avaliação da pesquisa.
  • Considere o impacto do fato de que algumas informações não podem ser acessadas abertamente nos resultados do projeto.
  • O próximo passo é estender o conhecimento e a metodologia do Data4Impact para outros domínios e programas.

== Referência ==

Research Policy Monitoring in the Era of Open Science and Big Data Workshop, Ghent, Belgium, 27-28 May 2019. Disponível em:  https://www.openaire.eu/research-policy-monitoring-in-the-era-of-open-science-and-big-data-2?idU=1 Acesso em: 08 julho 2019.