Big Data e Ciência Aberta: monitorando a pesquisa e seu impacto
Financiadores de pesquisa em toda a Europa estão cada vez mais exigindo a adoção de práticas de Ciência Aberta para resultados de pesquisa financiados com recursos públicos visando apoiar o acesso aberto e gratuito a elementos valiosos do ciclo de vida da comunicação acadêmica. Das publicações em Acesso Aberto (OA) aos recentes desenvolvimentos do Plano S, da promoção e aceitação de práticas coordenadas de gestão de dados de pesquisa aos exercícios de avaliação de pesquisa mais avançados para entender a inovação e o impacto social, é necessário monitorar os resultados da pesquisa.
As infraestruturas digitais nacionais e da União Europeia estão respondendo a estas necessidades, incorporando e desenvolvendo ferramentas de monitoramento para fornecer dados comprovados sobre a adesão às políticas, os custos e o impacto da pesquisa, promovendo simultaneamente a interoperabilidade e compartilhamento dos resultados das pesquisas.
Nesse sentido, é oportuno destacar que, em maio de 2019, na Bélgica, foi realizado o Research Policy Monitoring in the Era of Open Science and Big Data Workshop, um evento de dois dias co-organizado pelo OpenAIRE e pelo Data4Impact, com o apoio da Science Europe.
O Workshop explorou as possibilidades de monitoramento e a gestão de indicadores de políticas de pesquisa, e como vinculá-los à infraestrutura e serviços. O primeiro dia foi focado em indicadores científicos abertos, uma vez que estes emergem de iniciativas nacionais e da UE, enquanto o segundo dia explorou aspectos mais avançados de indicadores de inovação e impacto social.
Alguns dos elementos abordados neste workshop de dois dias foram:
- Formas existentes de monitoramento da Open Science – o que e como
- Aspectos de colaboração para alcançar um panorama de monitoramento contínuo através de infraestruturas abertas
- Técnicas orientadas por dados para avaliação de pesquisas e seus links para dados abertos
Outros Pontos-chave:
- Um conjunto de prioridades de quais elementos do ciclo de pesquisa precisam ser monitorados
- Como as infraestruturas podem trabalhar juntas para fornecer coletivamente elementos de monitoramento e por onde começar
- Uma compreensão mais profunda das ferramentas de monitoramento de benefícios pode trazer para o ciclo de vida do sistema operacional
- Um vislumbre das tendências emergentes e futuras para a avaliação do impacto da pesquisa usando dados grandes (abertos) e Inteligência Artificial (IA).
O workshop explorou diferentes formas de monitoramento neste novo panorama da ciência aberta. Confira algumas das Apresentações. Então, qual é a prioridade?
Qualidade deve vir primeiro. O discurso de apresentação por Marc Vanholsbeeck explorou o significado do impacto. A que realmente nos referimos usando o termo? Existem, na verdade, tantos tipos diferentes de impacto na pesquisa, mais de 3000 vias de acordo com a pesquisa disponível. Portanto, é difícil definir o que queremos medir. O tema principal foi: a qualidade vem em primeiro lugar, o impacto vem em seguida.
Precisamos monitorar repositórios. A apresentação de David Osimo lançou alguma clareza sobre isso. Poucos pesquisadores estão dispostos a compartilhar seus dados de pesquisa além de seus grupos de pesquisa. Um ponto interessante foi a necessidade de padronizar os dados de uso provenientes dos repositórios. Um claro caminho a seguir, certamente no cenário europeu, é treinar administradores de dados, cujo número ainda é muito pequeno.
Padronização de dados – A apresentação de Brecht Wyns and Christophe Bahim estabeleceu um plano de padronização de dados segundo o FAIR. Este GT vai longe para definir esses critérios e interpretar a implementação do FAIR. O estudo do cenário também será crucial.
Coalizão S e qual monitoramento é necessário – É evidente que os membros da Coalizão S estão ocupados em aceitar todas as respostas. Haverá algumas mudanças, alterando os princípios-chave existentes. Isso inclui: sem pay-walls, mais flexibilidade no licenciamento CC-BY e um pouco de liberdade em permitir o híbrido, contanto que a revista possa demonstrar que está caminhando para um modelo de acesso totalmente aberto. E… a estrada verde é também uma rota muito importante para o acesso aberto, refletindo que as Coalizões fazem parte de um movimento global. O objetivo final é mudar o sistema de publicação, não para punir os pesquisadores. Ponto importante da Science Europe – lembre-se de que nem todos os financiadores dispõem de recursos suficientes para lidar com todas essas questões de monitoramento.
Os indicadores devem ser transparentes. A apresentação de Dietmar Lampert enfatizou que – acima de tudo – os indicadores devem ser transparentes. Os resultados apresentados a partir de seu estudo (ZSI Research Policy and Development) deram algumas idéias interessantes: quais indicadores devem ser desenvolvidos e monitorados, tais como:
- % de publicações de Pubicações em Acesso Aberto sem fator de impacto
- Disponibilidade de meios para publicar facilmente resultados negativos
Os pesquisadores estão muito conscientes dos padrões dentro da pesquisa. Portanto, é uma progressão natural que podemos construir um para o sistema operacional. Outros fatores no fluxo de trabalho de pesquisa podem nos fornecer insights de monitoramento e precisamos explorá-los. A avaliação da pesquisa também deve aproveitar as oportunidades não vistas da era da ciência aberta e potencialmente novas abordagens tecnológicas e metodológicas.
Algumas das principais conclusões do 1º dia:
- Não colecione números apenas por colecionar.
- Precisamos construir cuidadosamente os parâmetros. Isso pode levar a resultados perversos.
- Precisamos de um selo confiável de qualidade para resultados e dados de pesquisa.
- Precisamos de benchmarking para a ciência aberta
- Tem que ser transparente
- Precisamos ser capazes de comparar políticas facilmente
O segundo dia de workshop focou no uso de tecnologias de big data para avaliação avançada de pesquisa. O workshop foi liderado pelo Data4Impact – http://www.data4impact.eu/, um projeto do Horizonte 2020 financiado pela Comissão Europeia. O Data4Impact é pioneiro em técnicas de big data e desenvolve abordagens piloto que acompanham o legado e o impacto das atividades de pesquisa após o fim do financiamento público. Neste workshop, o consórcio do projeto apresentou uma série de indicadores desenvolvidos sobre o desempenho e o impacto social de mais de 40 programas de pesquisa no domínio da saúde pela primeira vez.
Data4Impact permite que formuladores de políticas, financiadores, especialistas, pesquisadores e o público em geral a “Pergunte menos e saiba mais” no contexto da avaliação avançada da pesquisa. O modelo analítico é estruturado em quatro fases distintas do ciclo de vida da pesquisa, incluindo (a) entrada, (b) taxa de transferência, (c) saída e (d) impacto. Baseando-se em novas técnicas de big data, tais como web scraping, crawling e mineração, bem como métodos de análise de texto, como Processamento de Linguagem Natural e aprendizado profundo, o Data4Impact reuniu dados para cada fase analítica.
Em seguida, O Data4Impact convidou os participantes para duas sessões paralelas, com foco na metodologia e indicadores Data4Impact nas áreas de: (a) Impacto Acadêmico e Relevância Societal da Pesquisa e (b) Impacto Econômico e Impacto Social e da Saúde. Confira aqui os slides e o resumo dos principais indicadores Data4Impact apresentados aos grupos de discussão, acompanhado de sua avaliação sobre utilidade e credibilidade em cada uma das áreas de foco.
Principais conclusões do painel de discussão do 2º dia foram:
- Big data mostra um enorme potencial de longo prazo, embora limitações devam ser consideradas (por exemplo, atraso de tempo, disponibilidade de dados, etc.).
- Algumas formas de mitigar as limitações podem ser com o uso de múltiplas abordagens (por exemplo, quantitativa e qualitativa) e documentação adicional sobre como os indicadores são derivados e quais dados específicos são usados para construí-los. Com maior transparência, os formuladores de políticas e financiadores podem chegar a um consenso sobre a definição de cada indicador, bem como soluções potenciais para questões-chave de dados.
- Reprodutibilidade dos resultados considerando particularmente a usabilidade e facilidade de uso que são a força motriz por trás da adoção de novas tecnologias.
- As principais lições aprendidas é que o Data4Impact mostra que agora temos uma maneira de descobrir e usar os dados que estão por aí, mas que não puderam ser coletados e usados antes para avaliação da pesquisa.
- Considere o impacto do fato de que algumas informações não podem ser acessadas abertamente nos resultados do projeto.
- O próximo passo é estender o conhecimento e a metodologia do Data4Impact para outros domínios e programas.
== Referência ==
Research Policy Monitoring in the Era of Open Science and Big Data Workshop, Ghent, Belgium, 27-28 May 2019. Disponível em: https://www.openaire.eu/research-policy-monitoring-in-the-era-of-open-science-and-big-data-2?idU=1 Acesso em: 08 julho 2019.