“Detectores de plágio são uma muleta e um problema”

Acadêmicos e editores precisam parar de fingir que o software sempre pega texto reciclado e começar a ler com mais cuidado, diz Debora Weber-Wulff.

__________________________________________________________________________

Esta matéria é uma tradução do artigo original intitulado Plagiarism detectors are a crutch, and a problem e publicado na revista Nature de 28 de março de 2019, de Debora Weber-Wulff, professora de computação e mídia na HTW Berlin − University of Applied Sciences.

Quando se trata de plágio, muitos acadêmicos parecem acreditar em números mágicos. No mês passado, uma empresa que oferecia software de detecção de plágio anunciou que seria adquirida por US $ 1,7 bilhão ainda este ano. É uma das várias empresas que oferecem sistemas de software que aplicam algoritmos de ‘caixa preta’ para produzir uma pontuação que mostra como um texto combina com outros. Como esses sistemas encontram alguns casos de plágio, há uma crença errônea de que eles documentam devidamente todos os casos.

Pena, minha avó teria dito. Eu tenho testado o software de detecção de plágio nos últimos 15 anos. Os resultados costumam ser difíceis de interpretar, difíceis de navegar e, às vezes, apenas errados. Muitos sistemas relatam falsos positivos para frases comuns, nomes longos de instituições ou até mesmo informações de referência. O software também produz falsos negativos. Um sistema pode não encontrar plágio se a fonte do texto plagiado não tiver sido digitalizada, contiver erros de ortografia ou não estiver disponível para o sistema de software. Muitos casos de plágio não são detectados quando o material é traduzido ou extraído de várias fontes. As avaliações dependem dos algoritmos utilizados e do corpus de trabalho disponível para comparação. Para sistemas que verificam amostras aleatórias, repetir o teste do documento minutos depois pode produzir resultados diferentes. Eu também vi sistemas diferentes classificando um texto como plagiado completamente ou parcialmente, ou livre de plágio.

No entanto, o número que esses sistemas produzem – conhecido como “pontuação de originalidade”, “conteúdo não exclusivo” ou “PlagLevel” – geralmente é considerado pelo valor nominal. Uma segunda opinião é raramente procurada, embora existam dezenas de sistemas disponíveis. Na verdade, a leitura dos relatórios produzidos pelo software pode revelar material corretamente citado, como uma seção de métodos referenciados corretamente, marcada como plágio.

Mas editores, professores e administradores pressionados pelo tempo, muitas vezes se concentram nesse número simples quando tomam decisões que são cruciais para os acadêmicos e bolsas de pesquisa. Se o software relatar um número baixo, a pessoa que estiver avaliando o artigo poderá ignorar os indicadores óbvios de plágio, como mudanças de estilo, erros de ortografia, alterações de fonte ou palavras sublinhadas que sugerem que o texto foi colado da Wikipedia. E sim, já vi isso em dezenas de dissertações de doutorado e publicações científicas.

Se o software reportar um número alto, editores ou professores podem considerar injustamente uma submissão como um plágio inequívoco. As universidades definem formalmente os níveis ‘aceitáveis’ de plágio, avaliados pelo software, em vários níveis de graduação. Os professores querem que o software sinalize os papers “ruins”, para que não precisem lê-los. Mas os alunos, com medo de plagiarem acidentalmente, usam os mesmos sistemas para reescrever seu trabalho, trocando palavras com sinônimos e rearranjando sentenças até que o número pareça bom, em detrimento da legibilidade.

Os editores de periódicos usam os números como uma muleta para filtrar rapidamente os artigos que podem rejeitar de imediato, ou que podem publicar sem preocupação, caso os revisores deem um sinal positivo. Alguns periódicos e conferências publicam seu limite on-line.

A integridade acadêmica é um problema social;
a diligência devida não pode ser deixada para
algoritmos desconhecidos.

Textos duplicados e plagiados prejudicam: distorcem a verdadeira produção acadêmica dos acadêmicos e tornam a literatura ainda mais difícil de navegar. Não pode ser tolerado, mas esses números desonestos não são a solução. Eu tenho me correspondido com editores de periódicos sobre publicações problemáticas por anos. Publicações duplicadas são aquelas que têm essencialmente o mesmo texto (ou os mesmos dados) e compartilham pelo menos um autor. Em alguns casos, o título e o resumo são diferentes e os autores foram adicionados, removidos ou embaralhados. Artigos plagiados não possuem autores em comum.

Alguns dos editores que entro em contato estão bastante surpresos. Eles usam software de detecção de plágio, por isso esperam estar limpos. Mas a duplicação evita a detecção por vários motivos. Fontes potenciais, como teses de doutorado, podem ser armazenadas em um repositório ou por trás de um paywall e não estão disponíveis para comparação. Textos que foram habilmente (ou mesmo algoritmicamente) reformulados também ficarão abaixo dos limites.

Este ano, os resumos submetidos à Conferência Mundial sobre a Integridade da Pesquisa foram analisados ​​por software, com um limite de sobreposição de texto de 30%. E, de fato, 38 de 449 submissões submetidas registraram acima deste nível. Após investigação, 15 foram considerados plágio e 23 continham texto da pesquisa previamente publicada pelo autor. A maioria dos resumos foi rejeitada; em alguns casos em que os autores reciclaram seu próprio texto, os resumos foram rebaixados para pôsteres. Essa quantidade de plágio e duplicação é chocante, especialmente para uma conferência sobre integridade acadêmica; também é provavelmente uma subestimativa.

O software não pode determinar o plágio; só pode apontar para alguns casos de texto similar. Os sistemas podem ser úteis para sinalizar problemas, mas não para discriminar entre originalidade e plágio. Essa decisão deve ser tomada por uma pessoa. O método mais importante para encontrar plágio é ler um texto e estudar as referências para inconsistências. Uma verificação pontual com um mecanismo de pesquisa na Internet, usando de três a cinco palavras de um parágrafo ou uma frase particularmente agradável, pode revelar copistas. Procurar por uma referência que pareça estranha pode transformar uma fonte que mutilou a referência da mesma maneira. Somente se um texto estiver de alguma forma desativado e a pesquisa online não ajudar, os sistemas de software devem ser consultados. Nesses casos, é melhor usar dois ou três sistemas e ler os relatórios, não valorizar os números à primeira vista.

A integridade acadêmica é um problema social; a diligência devida não pode ser deixada para algoritmos desconhecidos. Manter a ciência honesta depende de cientistas dispostos a trabalhar duro para proteger a literatura.

[1] WEBER-WULFF, Debora. Nature, v. 567, 435 (2019) https://doi.org/10.1038/41586-019-00893-5