#140 Nuno Barbosa Morais - Vieses cognitivos, incentivos perversos, Big data, e outros desafios...

Click on a part of the transcription, to jump to its video, and get an anchor to it in the address bar

José Maria Pimentel
Olá, o meu nome é José Maria Pimentel e este é o 45 Graus. Muito obrigado aos novos mecenas do podcast, no último mês, na verdade, porque me esqueci de agradecer no último episódio. São eles Miguel M. Cabral, Fernando Pereira, Nuno Costa, André Soares, Elsa Caetano, agradeço também à Sandra Ferreira e à Ilsa Barbosa, ao Rui Caetano Garcia, à Márcia Serra, ao António Nascimento, à Inês Águas e obrigado também ao Pedro Lemos Silva, à Margarida Pontes, à Rita Noronha e à Cristiana Campos. E com isto vamos ao episódio de hoje. Este episódio tem uma origem peculiar. No verão passado estive no Instituto de Medicina Molecular da Universidade de Lisboa a gravar o episódio com a Luísa Lopes, que foi como se lembram sobre neurobiologia. No final da gravação a Luísa convidou-me, simpaticamente, para uma espécie de convívio de fim de tarde que eles ali fazem regularmente com todos os investigadores e que, por acaso, calhava naquele dia. Foi um fim de tarde inesperado e muito bem passado e descobri por lá vários ouvintes do 45°. Uma dessas pessoas foi o convidado deste episódio, Nuno Barbosa Moraes, que coordena no IMM um laboratório dedicado à chamada Biologia Computacional. O Nuno é licenciado em Engenharia Física Tecnológica pelo Técnico e adoutorado em Ciências Biomédicas pela Faculdade de Medicina de Lisboa. Leciona também, na mesma faculdade, cursos de Biologia Computacional a vários mestrados. Desde 2015, o Nuno lidera no IMM o Laboratório de Transcritómica de Doença. Este é um tipo de laboratório muito diferente dos laboratórios normais nesta área. É aquilo a que no jargão desta área se chama um dry lab, um laboratório seco. Ou seja, isto porque a equipa do Nuno não trabalha com tubos de ensaio ou microscópios, aquilo a que nos habituamos a associar ao trabalho de um cientista. Utilizam sim dados e informação gerada nos laboratórios tradicionais, que se chamam, se adivinharam, wet labs, e processam esses dados através de programas informáticos que permitem ajudar a tirar conclusões. O Nuno é por isso um, entre aspas, "homem dos números" a trabalhar em Biologia. E isso dá-lhe uma perspectiva interdisciplinar e muito singular sobre os desafios de fazer ciência e que, por vezes, dão lugar a má ciência. Sobretudo hoje, em que a ciência é cada vez mais competitiva e quem a faz utiliza cada vez mais o chamado big data e programas informáticos complexos. Por isso, naquele fim de tarde, mal começámos a conversar, percebi rapidamente que a minha defesa da necessidade de pensamento crítico e dos méritos da interdisciplinaridade, que vocês conhecem bem quando estão vindos do 45°, estava muito alinhada com as preocupações que o Nuno foi desenvolvendo a partir da experiência dele enquanto cientista de dados no meio de biólogos e das ideias que ele foi formando em relação a estes desafios. E assim nasceu este episódio. Na conversa que vão ouvir, o Nuno identifica uma série de desafios/obstáculos à boa consciência que eu diria que se podem dividir em dois tipos. Os de sempre e aqueles que se foram tornando mais agudos nas últimas décadas devido a algumas mudanças quer técnicas, quer institucionais, que afetam o modo como hoje se faz ciência. O primeiro tipo de desafios, os de sempre, tem a ver com a maior dificuldade da ciência enquanto atividade, que é conseguir compreender o mundo, identificar leis da natureza, tendo acesso apenas a dados sempre parcelares e imperfeitos e contando apenas com a mente dos cientistas, que é uma mente humana e por isso cheia de limitações e vieses. Para contrariar essas limitações cognitivas e também os nossos defeitos morais, criou-se ao longo do tempo uma arquitetura institucional com uma série de válvulas de segurança para garantir o rigor científico. Por exemplo, um trabalho científico só é publicado depois de ser revisto por outros cientistas e a ciência é feita de forma aberta, de modo a que um cientista esteja sempre sujeito a que as suas conclusões sejam invalidadas por outros investigadores. E para conseguir decidir entre o que conta e o que não conta, o que é válido ou não é válido como descoberta científica, a partir dos tais dados limitados, foi preciso criar um método, aceito por todos, que pudesse decidir em relação à significância das conclusões. Instituíram-se então testes de inferência estatística, os chamados testes de hipóteses, o mais conhecido dos quais é o célebre p-value, valor p, de que falamos bastante na conversa. Só que estes testes são apenas uma via indireta de inferir conclusões. Como não é possível nunca conseguir ter a certeza absoluta em relação à nossa hipótese para explicar determinado fenómeno, o máximo que estes testes fazem é rejeitar a hipótese de não existir naqueles dados fenómeno nenhum. E depois há outro problema, esse sim mais grave. É que uma vez estabelecendo-se um referencial para determinar o que conta e o que não conta como descoberta científica, criam-se, acho que já adivinharam, incentivos para que os cientistas façam tudo por tudo, consciente ou inconscientemente, para que os seus resultados fiquem dentro desse referencial. Por causa destes métodos estatísticos imperfeitos e das limitações da nossa mente, a ciência foi sempre uma atividade muito complexa. Mas nas últimas décadas, algumas mudanças vieram a tornar estes obstáculos ainda mais pronunciados. Por um lado, o sistema de publicação de artigos científicos tem-se vindo a tornar cada vez mais competitivo, gerando incentivos para publicar resultados o mais vistosos possível, mesmo que para isso seja necessário abdicar do rigor. Por outro lado, a ciência, em particular a área do convidado, as ciências biomédicas, tornou-se cada vez mais complexa e informatizada devido à ascensão do chamado Big Data e da utilização de programas bioinformáticos. E isto criou desafios adicionais a quem utiliza estas ferramentas, sem, em muitos casos, as compreender completamente. Estes obstáculos e outros que foram surgindo na conversa provocaram aquilo a que se tem chamado a "crise da replicação da ciência", em que várias conclusões aparentemente sólidas, sobretudo nas áreas da biomedicina e da psicologia, têm sido invalidadas por estudos posteriores. Esta crise tem feito correr muita tinta nos últimos anos, com já vários livros publicados sobre o assunto. E foi precisamente por aí que começámos a nossa conversa, na qual percorremos as causas e consequências destes desafios e obstáculos. No final, pedi ao Nuno para apontar soluções para resolver estes desafios, os antigos e, sobretudo, os novos. Como vão ver, ele tem muitas ideias e interessantes em relação a este assunto. E agora deixo-vos com esta bela conversa com Nuno Barbosa Moraes. Nuno, bem-vindo ao 45 Graus. Obrigado, José Maria. A ciência, em certo sentido, bastante argumentável que nunca se fez tanta ciência e nunca se fez, em grande medida, tão boa ciência, no sentido de, com métodos tão complexos e explorar fronteiras do conhecimento tão avançadas. Mas, por outro lado, existem hoje vários obstáculos à ciência. Alguns deles já vêm de trás, outros são mais recentes, que são obstáculos à boa ciência, se quisermos. Alguns deles são obstáculos à fazer boa ciência, alguns são institucionais, outros são cognitivos que sempre existiram mas que hoje em dia se tornaram mais complicados e outros que têm a ver com novos métodos e com questões mais específicas de cada área. Mas que são coisas que implicam que, ao contrário do que seria de esperar, nem sempre se esteja a fazer boa ciência. E, se calhar, o sintoma mais óbvio disso que toda a gente já ouviu falar é o caso da chamada crise da replicação. Tanto do lado da biologia e da biomédica como do lado da psicologia se começou a perceber que havia uma série de experiências que tinham sido feitas. Aliás, e não por acaso, muitas delas com conclusões surpreendentes e que, de repente, ao tentar replicar-se, não se conseguiu obter os mesmos resultados. Sendo que a replicação é fundamental para a ciência. A replicação é que está na base da ciência, não é, ao contrário do que muitas vezes parecem ali os jornais, não é uma descoberta que faz a ciência, é a validação dessa descoberta ou não falsificação dessa descoberta que faz a ciência. Portanto, isto é um desafio grande. Qual é a tua explicação para isto? Ou seja, para este problema mais geral e, sobretudo, se calhar, focando na questão da crise da replicação?
Nuno Barbosa Morais
A minha explicação é que a ciência é feita por humanos e, portanto, pregando nos vieses, ou seja, eu acho que mesmo os outros problemas que mencionaste, incluindo os institucionais, são uma consequência de vieses cognitivos associados ao facto da ciência ser praticada, digamos assim, por humanos. Portanto, a ciência, definindo-a como esta empreitada coletiva de gerar e organizar, estruturar novo conhecimento, assenta, em primeiro lugar, e como tu já mencionaste, na ideia de hipóteses testáveis, portanto, da nossa capacidade para testarmos hipóteses e observações que sejam reprodutíveis, portanto, para testarmos essas hipóteses, recolhermos informação, se quiseres adquirir uns dados que nos permitam garantir que o que estamos a ver é reprodutível e vai acontecer outra vez quando fizermos a nova experiência.
José Maria Pimentel
A hipótese, no fundo, para quem nos está a ouvir, não é bem a mesma coisa, mas é uma teoria, no fundo.
Nuno Barbosa Morais
Normalmente, a maior parte das hipóteses também são motivadas por observações prévias, ou seja, tu olhas para a natureza, observas algo que te surpreende, tens uma ideia do que pode explicar aquela observação, tens uma hipótese e vais fazer experiências que permitam testar essa hipótese e recolher informação suficiente para esse teste. O que é que acontece? E aqui, voltando à ideia de que a ciência é feita por humanos, o que motiva os cientistas para trabalhar em ciência é bastante diverso, mas tu encontras uma motivação muito comum nos cientistas que é a vontade de fazer uma grande descoberta ou de ter uma ideia sobre o que pode estar a acontecer na natureza e validar essa ideia, confirmar essa ideia experimentalmente. Obviamente que isso é potencialmente uma fonte de viés, porque se tu estás muito entusiasmado com a tua hipótese, vais ter tendência a, sempre que fazes uma observação que é compatível para a tua hipótese, a achar que estás a provar a tua hipótese. Obviamente que os cientistas têm noção disso e também têm, em primeiro lugar, noção que a ciência é uma empreitada coletiva, é uma construção social a forma de fazer ciência e, portanto, há algumas normas, ou se quiseres, alguns princípios deontológicos que garantem que os cientistas se apoiam uns aos outros no sentido de escrutinarem a ciência que todos fazemos para evitar precisamente que caiamos nesses viés cognitivos. E um dos principais princípios deontológicos é o do ceticismo organizado, que é a revisão por partes. E começamos por aí. Portanto, esse é um mecanismo, se quiseres, social de controlo de qualidade da ciência. Mas há, sobretudo no método científico, alguns princípios lógicos importantes. Um muito importante em relação à ideia de termos hipóteses destáveis é bem enunciado pelo Karl Popper, que é a ideia das hipóteses falsificáveis. Ou seja, nós nunca provamos a nossa hipótese, nós vamos nos aproximando da prova da nossa hipótese, recolhendo informação suficiente para descartar, rejeitar hipóteses alternativas à nossa. Portanto, o processo, o método científico, passa, sobretudo, por testar hipóteses falsificáveis. E passando ao segundo aspecto, que é o das observações reprodutivas, a ideia é que se nós queremos testar a nossa hipótese, desenhamos uma experiência que permita recolher informação ou observações de dados suficientes para descartar uma hipótese alternativa à nossa ou várias hipóteses alternativas à nossa. Agora, a pergunta e a questão que se coloca é quando é que temos observações suficientes, dados suficientes para descartar uma hipótese contrária à nossa e o que é que é suficiente? Pronto, a estatística, se quiseres, a história da teoria das probabilidades e da estatística mostra que a construção destes alicerces conceptuais e informais, ou seja, da linguagem estatística, foi feita na base, precisamente, de percebermos o que é que pode estar a acontecer por acaso. Portanto, foi, no fundo, procurarmos quantificar o acaso e isto, voltando à questão dos testes no fundo, quando estamos a tentar recolher informação suficiente para rejeitar uma hipótese contrária à nossa, se a hipótese contrária à nossa foi de "não está a acontecer nada" ou "estas observações que me fizeram pensar nesta hipótese são fruto do acaso", como é que eu testo isto?
José Maria Pimentel
Sim, porque no fundo a lógica é que tu podes encontrar um efeito, para dar o exemplo mais óbvio de todos, nós sabemos que se lançares um dado há um sexto de probabilidade de calhar cada uma das faces. Exatamente. Mas pode acontecer que se eu lançar aqui dez vezes o dado, aliás é provável, aliás é impossível que saia um sexto porque não é um número inteiro, mas é provável que mesmo que eu lance doze vezes os dados, não vai sair duas vezes cada uma das faces, não é?
Nuno Barbosa Morais
Exatamente, exatamente. E até não é impossível que saia muitas vezes a mesma face por acaso.
José Maria Pimentel
Sim, portanto, no fundo aí foi um acaso e, portanto, querias testes estatísticos para perceber...
Nuno Barbosa Morais
Exatamente, portanto, a ideia mesmo é essa, ou seja, se tu lançares o dado muitas vezes e te parecer que o dado está enviasado, quanto é que é evidência suficiente para poderes dizer que vais descartar a hipótese de que o dado não é enviasado, que o dado é legítimo? E, aliás, é curioso porque embora a história da teoria das probabilidades, e isso começa no tempo dos romanos e da antiga civilização chinesa, o grande impulso à estatística vem mais ou menos do século XVI do Cardano, que precisamente se tornou um jogador isímio e fez dinheiro a jogar porque começou a tentar estimar as probabilidades de determinados resultados nos jogos que, embora fossem vistos como aleatórios e frutos da sorte e do azar, ele sabia que havia determinadas jogadas que tinham mais probabilidades de sucesso, como os jogadores de póquer sabem. Não era completamente random. Exatamente, não era completamente random. No nosso caso o problema em biologia é que, até ao século XX, eu diria, ou até ao século XIX, a biologia envolveu pouca quantificação e pouca estatística devido à sua complexidade, portanto, os grandes avanços de biologia assentavam em conhecimento que era de alguma forma descritivo e só no século XIX, com o Gregor Mendel e as experiências com as ervilhas em Brno, é que se procurou... Entrar a genética no fundo. Entrar a genética, exatamente. Portanto, se procura quantificar um pouco, digamos, da influência genética, no caso era a cor das ervilhas, não é? E podemos dizer que aí é que começa a genética populacional que já tem quantificação associada. Mas, em particular, e isto é muito curioso, que o uso da estatística em biologia aparece provavelmente com o estatístico mais influente da primeira metade do século XX, que era um biostatístico, que era o Ronald Fisher, que é conhecido, nomeadamente, pela análise de variância, pelo teste que tem o seu nome, e pelo valor P, ou P-value, que é precisamente esse conceito de qual é a probabilidade que eu tenho de rejeitar a hipótese nula quando ela é verdadeira, ou seja, qual é a probabilidade de eu enganar-me, de eu cometer um erro, aquilo que se chama um falso positivo, ao rejeitar uma hipótese verdadeira, ou seja, no caso é qual é a probabilidade de eu achar que a observação que eu estou a fazer não é por acaso, quando ela é por acaso, ou qual é a probabilidade de aleatoriamente eu observar resultados mais extremos do que o acaso. Sim, sim, sim.
José Maria Pimentel
Ou seja, para dar um caso concreto, imagina, nutrição, estás a ver o efeito do Ifanépolis Day keeps the doctor away, não é? Exatamente. E portanto, tens uma amostra com pessoas que comem uma maçã diariamente e outras que não comem, não é? E no fundo isso dá-te a probabilidade, e vamos admitir que as pessoas que comem uma maçã diariamente de facto têm menos problemas de saúde, não é? O p-value dá-te a probabilidade desse efeito que tu estás a identificar não ser o efeito real mas ser fruto do acaso. Do acaso. Por acaso saiu assim aquela amostra. Exatamente, é exatamente isso. Portanto, quanto mais baixo for, melhor, e normalmente o limiar está nos 5%. Sim, sim.
Nuno Barbosa Morais
O que é interessante é que o Fischer, que aliás trabalhava, eu disse que era biostatístico porque ele trabalhava com dados de colheitas em Rothamsted, que é em norte de Londres, era um instituto que ainda existe, agrónomo, passou várias décadas, eu diria que o grande foco intelectual dele foi precisamente quando é que eu tenho evidência suficiente para acreditar que isso não é por acaso. A história mais emblemática e com a qual ele arranca provavelmente o livro mais famoso dele que se chama "Desenho de Experiências", portanto, meados dos anos 30, em que ele dá aos cientistas, aos investigadores, um manual de como desenhar experiências otimizadas para fazer testes legítimos de hipóteses e a respectiva quantificação, e o primeiro exemplo que ele dá nesse livro é a história da Muriel Bristol, que era uma colega dele, bióloga de algas, que gostava muito de chá e primeiro afirmava que o leite devia ser colocado no chá depois do chá estar na chávena e afirmava que conseguia distinguir uma chávena de chá em que o leite tinha entrado primeiro ou entrado depois no chá. E a história é engraçada porque o Fischer não acreditava que ela fosse capaz de distinguir e desenhou uma experiência que permitisse testar isso e então combinaram que iam preparar oito chávenas de chá, quatro em que o chá era colocado por cima do leite e quatro em que o leite entrava no chá. E a senhora realmente percebia do assunto porque acertou todos, portanto acertou os oito. E o motivo hoje sabe-se cientificamente, eu ia sugerir que o Nuno Malido incluísse a explicação num dos próximos livros, sabe-se que as primeiras gotas de leite a entrar no chá quente devido à hidrofobicidade da gordura e das proteínas que lá estão formam os aglomerados e as proteínas desses aglomerados dentro de água quente desnaturam pela temperatura o que dá até um sabor caramelizado ou bruxicado. Isso não acontece quando o chá cai por cima do leite. A questão é que depois de ver o sucesso da colega, ainda assim o Fischer questionou-se se aquilo era fruto do acaso ou não e calculou as probabilidades dela acertar. Por acaso, as probabilidades eram de 1 em 70, portanto 1,4%, ele ficou satisfeito, mas mesmo assim em praticamente tudo o que fazia ele ficava a pensar se de facto estava a testar bem a hipótese e portanto foi daí dessas reflexões dele e dessas quantificações que se desenvolveu o conceito do Pivel. E depois veio o limiar dos 5%.
José Maria Pimentel
E depois veio o limiar dos 5%.
Nuno Barbosa Morais
O que é que acontece aqui é que o Fischer diz também num destes livros de apoio ao desenho experimental e às estatísticas de análise do resultado experimental, diz que só considera dar relevância a observações quando a probabilidade de rejeitar a hipótese do acaso for inferior a 5%, portanto quando este valor P for inferior a 5%. Mas no mesmo dos livros ele diz "isto é totalmente arbitrário e o cientista é que deve decidir qual o erro que está disposto a aceitar". O que acontece em biologia é que há aqui dois fenómenos, que é, em primeiro lugar os biólogos não se preocupam, ou seja, aqueles que não sabem muita estatística, que infelizmente provavelmente é a maioria, não se concentra muito em interpretar o valor P e em comprometer-se com uma tomada de decisão em relação ao que é que é um erro aceitável e aceita este limiar totalmente arbitrário que já está nos livros há quase 100 anos de 5%, portanto a probabilidade… É uma convenção no fundo. É uma convenção, ou seja, aceitaram esta convenção… Desculpa, mas também tem algumas vantagens, não é?
José Maria Pimentel
Porque essa convenção permite que tu compares, não só entre outros papers publicados nesta altura como até ao longo do tempo, não é?
Nuno Barbosa Morais
Tens um standard… Tens, mas eu… parte do problema é precisamente que o standard não é bom e eu já lá vou… É um standard muito laço, portanto, quando tu perguntas às pessoas porque é que usam 0.05 e mesmo depois de lhes contares, de lhes explicares que isto é arbitrário, portanto, probabilidade de se quiseres declamar um efeito quando ele não é verdadeiro de 1 em 20, a resposta é, é conveniente usar um critério bastante liberal porque nos permite ter mais resultados positivos, ainda que depois… Não é um grande argumento. Não sei se… Mas é esse o argumento, é, permite ver mais coisas potencialmente relevantes e portanto dá mais margem de manobra para fazer avançar os estudos por cima de determinadas hipóteses, ainda que a probabilidade dessas hipóteses serem verdadeiras seja um pouco mais baixa ou o risco de estarmos a trabalhar em cima de uma falsificação mal feita ser mais alto. E há aqui uma outra questão importante que a maior parte dos cientistas das ciências da vida têm aquilo que chamam uma mente descontínua no sentido em que gosta de dividir as entidades em caixas e o mesmo se aplica aqui à questão da análise da significância estatística dos resultados que é vamos dividir os nossos resultados em significativo e não significativo. E isso devia ser um contínuo e devíamos nos comprometer com a interpretação desse contínuo.
José Maria Pimentel
Comprometer no sentido de porque é que estamos a escolher aqueles… Exatamente. E depende de quê? Ou seja, de quê é que deveria depender em teoria a escolha do limiar próprio ou a variação desse limiar?
Nuno Barbosa Morais
A minha opinião é que nunca deveríamos escolher um limiar, mas o motivo pelo qual se escolhe um limiar tem a ver com uma conveniência prática, não é? Que é eu tenho que avançar com experiências e não posso testar tudo, então vou testar aquilo que me parece mais relevante. E num certo sentido, daquilo que deve depender esta escolha de limiar é quais são as consequências práticas e até morais de eu ser mais ou menos conservador. Por exemplo, se um falso positivo, ou seja, eu rejeitar a hipótese nula quando ela é verdadeira puder implicar alguém morrer, obviamente que não vou correr esse risco e vou arranjar um valor P muito mais baixo e muito mais conservador. Mais apertado. Mais apertado. Mas se não houver nenhum preço a pagar por avançar com estudos numa observação que pode ser falsa, então eu prefiro trabalhar em cima de mais observações potencialmente falsas porque me dão mais oportunidades de descobrir algo interessante. E portanto não há nada de muito perverso nisto.
José Maria Pimentel
E se o sistema funcionar, alguém vai falsificar aquela hipótese. Exatamente, exatamente.
Nuno Barbosa Morais
E portanto, em teoria, esta ética até nem é muito questionável. Curiosamente, historicamente, houve quem pensasse de uma forma um pouco diferente. Por exemplo, o Jacob Bernoulli, que é o autor da Lei dos Grandes Números, digamos assim, acabou por nunca dar grande utilidade prática à formulação matemática que hoje em dia é aplicada em sondagens, por exemplo, para estimar uma determinada probabilidade com uma determinada confiança, uma determinada margem de erro, quantos indivíduos é que eu tenho que mostrar. Portanto, esta base estatística das sondagens começa com os trabalhos do Jacob Bernoulli. Mas ele nunca deu uma aplicação prática a isto porque ele achava que tinha o dever moral de trabalhar com 99,9%, ou seja, com 0,1% de probabilidade de falsos positivos. E portanto nunca deu uma aplicação prática. Pois, e precisas de uma amostra muito maior. Precisas de uma amostra muito maior e podemos falar sobre isto. Mesmo no caso, por exemplo, quando foi anunciada a descoberta do bosão de Higgs, os cientistas do CERN decidiram trabalhar com uma significância superior, portanto um valor P inferior a 1 em 10 milhões. Portanto, nada comparável a 1 em 20. Precisamente por isso, porque não queriam fazer, não queriam anunciar, não queriam especular sobre a existência do bosão sem ter uma certeza quase absoluta de que o que estavam a ver era a consequência da existência do bosão de Higgs.
José Maria Pimentel
E aí tinham até uma teoria muito forte por trás já, não é? Ou seja, a hipótese estava muito sustentada.
Nuno Barbosa Morais
O que nos leva, sobretudo, à base teórica da crise da reportabilidade. Portanto, estávamos a dizer que isto é discutido há 15, 20 anos. Há um artigo na Ploz Medicine de 2005, do Ioannidis, que é um metacientista, e que tem este título bombástico, que é "a maioria das observações publicadas são falsas". A base para o Ioannidis dizer isto até é mais teórica do que empírica, ainda que possamos discutir depois que há evidência empírica para a tal crise da reportabilidade. E qual é a base? A base parte precisamente da convenção do valor P de 0.05, que é o seguinte. Imagina que tu és um cientista que tem uma hipótese e decide testá-la com uma significância de 0.05. Portanto, de 1 em 20, de probabilidade de achares que a tua hipótese é verdadeira porque rejeitaste mal a hipótese nula. Agora, imagina que são 20 cientistas, ou 19 outros, que estão tal como tu a testar a mesma hipótese com a mesma significância. O que vai acontecer é que se há uma probabilidade de 1 em 20 de haver um falso positivo, assumindo que a hipótese é falsa, há um cientista que vai fazer uma observação, portanto vai recolher dados suficientes ou evidência suficiente para achar que rejeitou a hipótese nula e que, portanto, a sua hipótese está no bom caminho. O que acontece aqui é que só ele é que vai publicar essa observação. Os outros 19, como vão ficar desapontados com o resultado, vão provavelmente guardar o resultado na gaveta, aquilo que se chama o "file drawer effect", que é "isto não é relevante, não fazem nada com esse resultado". E, portanto, se pensarmos que não só os cientistas que fazem a experiência desvalorizam resultados negativos, ou seja, resultados que não ajudam a validar a sua hipótese, também quem avalia os resultados, portanto a revisão por partes, também está enviesada nesse sentido, que é as revistas científicas também não têm muito interesse em publicar resultados negativos porque, diríamos, que são desinteressantes, não correspondem a um avanço do conhecimento. Aqui negativos no sentido de não se ter provado determinada hipótese. Exatamente. No fundo, o que o Ioani diz, diz, é isso mesmo, se nós assumirmos que isso acontece muito frequentemente, nós estamos a publicar muitos falsos positivos porque não temos a noção de todas as experiências que se fazem que não validam a hipótese e que são descartadas ou guardadas na gaveta.
José Maria Pimentel
E o ponto dele é que isso resulta em parte da natureza humana e em parte dos incentivos criados pelo sistema de publicação.
Nuno Barbosa Morais
No artigo ele não chega a... isso podemos nós agora discutir. Está implícito, não é? No artigo isso está implícito. O que ele diz é só isso, que é, nós só publicamos o que é um resultado positivo, portanto aquilo que alinha com a nossa hipótese e usamos um critério de significância tão lato que há muitos falsos positivos e é isso que vai parar.
José Maria Pimentel
E é isso que nós estamos a ver. Isso lembra-me um caso, que não sei se é verdade, se é uma história, de alguém que usou habilmente, não sei como é que lhe é de chamar, essa limitação social, não na ciência mas nos mercados financeiros, que era um tipo qualquer, que era corretor ou alguma coisa do género ou consultor de investimentos e enviou um e-mail para, vamos supor, sei lá, mil pessoas e para 500 enviou uma previsão de que as ações da Tesla iam subir e no outro de que as ações da Tesla iam descer. E depois aconteceu qualquer coisa, as ações da Tesla um a pouco subiram, ele pegou nos 500 para que tinha dito que ia subir, voltou a dividir entre os 50 e os 50 e voltou a fazer outra previsão qualquer para cima e para baixo. O 50% resultou, 50% não resultou, ele foi estreitando à amostra até que ao fim, como diria Hugo Teresa em "Fazer os Contos", mas ao fim de uma série de iterações, tu tens uma pessoa para quem ele fez 10 ou 20 previsões em que acertou sempre. Sim, exatamente. Portanto, do ponto de vista daquela pessoa, ele é o maior corretor do mundo. Sim, sim. Na verdade não é. Não, não, exatamente. É exatamente o mesmo efeito.
Nuno Barbosa Morais
E neste caso, podemos discutir isso melhor, mas é uma das grandes consequências dos grandes dados hoje em dia, é precisamente essa, não é? Mas eu já vou. Deixa-me só completar aqui a ideia de que este artigo do Ioannidis lançou, eu não diria controvérsia, mas lançou a discussão porque há contra-argumentos e o contra-argumento que muitos colegas usaram é "isto era verdade se todas as hipóteses fossem igualmente prováveis", mas os cientistas, como tu referiste, trabalham em cima de "standing in the shoulders of giants", trabalham em cima de conclusões anteriores e, portanto, a plausibilidade das hipóteses que os cientistas colocam quando as vão testar é grande. Ainda que este argumento tenha algum mérito, se quiseres, na intenção dos cientistas, ele tem algumas fraquezas e eu acho que a maior parte das fraquezas é uma combinação de uma série de vieses cognitivos, novamente. Um deles eu costumo chamar-lhe, não sei se é um bom termo, a "maldição da erudição". E o que é a maldição da erudição? Que se manifesta muito, sobretudo, em biologia, ou seja, como os temas biológicos são muito complexos, por exemplo, estão identificados cerca de 20 mil genes codificantes de proteínas e, portanto, têm uma função, vamos supor, em seres humanos e já houve muitas interações estudadas entre eles, o volume de conhecimento acumulado e publicado e que as pessoas estudam em biologia é muito grande e o que podemos pensar é que se associarmos a isso, aquilo a que se chama o viés de disponibilidade, que é a tua predisposição para, nesse vasto volume de conhecimento, te lembrares mais do conhecimento que alinha com a tua hipótese, haverá sempre uma tendência a colocares hipóteses que assentam em conhecimento que não é o conhecimento todo, mas o conhecimento ou que tu leste mais ou que parece fazer mais sentido. Exatamente. E, a somar a isto, temos o efeito linda, não é, que é a falácia da conjunção que o Daniel Kármán e o Amos Tversky estudaram, que faz com que… E que o Desiderio Mouros falou aqui no podcast. Sim, exatamente, que faz muitas vezes com que determinadas condições específicas ou hipóteses mais específicas sejam, na cabeça dos cientistas, consideradas mais plausíveis que hipóteses mais gerais. Isto porque, precisamente, na mente de um cientista que está entusiasmado com a hipótese, ela faz todo o sentido. E, portanto, se nós somarmos estes efeitos todos…
José Maria Pimentel
E haverá, desculpa, se calhar também ainda outro, que é o facto daquilo que tu eludias no início da pessoa querer fazer grandes descobertas. Exatamente. Porque a crise da replicação afetou sobretudo, pelo menos na psicologia, isto é verdade, não tenho a certeza que seja verdade na biologia e nas ciências biomédicas em geral, que afetou sobretudo previsões mais inesperadas. Sim, sim, exatamente. E, portanto, que, lá está, por serem inesperadas, deram mais nas vistas quando foram descobertas, mas lá está, partiam de uma premissa que não estava, se calhar, tão assente assim nas conclusões anteriores.
Nuno Barbosa Morais
Não, exatamente, aliás, e essa é uma nota de, digamos, de cuidado que todos os cientistas devem ter, que é, quando é bom demais para ser verdade, provavelmente não é verdade. Há um caso muito típico na nossa área. Aliás, eu tinha chegado há pouco tempo ao IMM, quando comecei a trabalhar no Instituto, quando saiu na Nature um artigo de um grupo japonês, de um Instituto RIKEN, que é um dos mais consagrados institutos de investigação japoneses em biologia, que reportava conseguirmos transformar células diferenciadas em células estaminais com um banho de ácido cítrico. Uma coisa muito simples, que era quase banho-maria. E isto era uma bomba. Maravilha, não é? Era uma maravilha. Como é que ninguém tinha reparado, não é? Não, exatamente, como é que ninguém tinha reparado que era só dar este banhinho às células? Porquê? Porque, nessa altura, já sabia ser possível reverter a diferenciação solar, mas foram décadas de trabalho para descobrir aquilo que se chamam os fatores Yamanaka. Aliás, o Yamanaka e o John Gurdon receberam o Nobel da Medicina da Fisiologia em 2012, precisamente por terem mostrado este processo, esta possibilidade de se reverter a diferenciação solar e transformarmos células diferenciadas em células estaminais, ou pelo menos pluripotentes, jogando com estes quatro fatores de transcrição. Mas que é tecnicamente bastante exigente. Os cientistas já sabem como fazê-lo, mas era difícil. E, de repente, aparece este grupo que diz "não, não, não, isto é um banhinho de ácido cítrico" e revertemos a diferenciação. E eu lembro-me dos meus colegas no IMM torcerem logo o nariz e pensarem "isto vai dar bronca porque não pode ser assim tão fácil". E provou-se, neste caso, era um caso mesmo de fraude, não é? E rapidamente se demonstrou não ser verdade. Mas há, no fundo, isso que é, uma vontade tal de fazer a próxima grande descoberta que as hipóteses, se quiseres mais sexis, se tornam, na mente dos cientistas, as mais plausíveis. Totalmente de acordo.
José Maria Pimentel
E tu dizias, este artigo de 2005, do Ioannidis, que foi o que no fundo lançou esta discussão, mas esse era um artigo, sobretudo, teórico, não é? Mas tem havido outros artigos que têm comprovado isto, como tu dizes há bocado, de uma maneira mais empírica. Exatamente, exatamente.
Nuno Barbosa Morais
Portanto, isso é aquilo que chamamos a metaciência, que são os colegas nossos que se dedicam precisamente a estudar estas dinâmicas. A estudar a ciência, os cientistas da ciência. Como é que nós sabemos… Sim, é uma área… Eu não conheço nenhum metacientista em Portugal, senão até o recomendava como convidado. Pois, provavelmente não há, porque precisa de alguma massa crítica. Exatamente, e falaria disto muito melhor do que eu e para além de que não é visto como uma especialidade, se quiseres, portanto é uma coisa muito mais transversal. Mas há quatro ou cinco demonstrações engraçadas de que este problema existe. Portanto, são metastudos que fizeram o seguinte, aliás, na sequência da conversa que tivemos sobre estatística, nós conseguimos prever facilmente que a dispersão do tamanho da magnitude dos efeitos que são medidos em vários estudos que procuram olhar ou testar hipóteses parecidas, deveria diminuir à medida que o número, se quiseres… A amostra, não é? Da amostra aumenta. Ou seja, se tu num gráfico puseres, vamos supor, no eixo do X a magnitude dos efeitos que estás a testar e no eixo do Y o tamanho da amostra, em princípio, vês um funil, porque vês muito menos dispersão para grandes amostras.
José Maria Pimentel
Ou seja, com amostras pequenas tu vais tender a ter valores, uns muito positivos, outros muito negativos e à medida que as amostras vão aumentando… Exatamente, ou seja, imagina que tu estás a…
Nuno Barbosa Morais
No fundo, vou convergindo para o valor central, não é? Para o valor central, exatamente. Portanto, a ideia é exatamente essa. Eu abandono-lhe outra vez, não é? E, aliás, por isso é que é importante fazer metastudos, que é pegarem muitos estudos pequenos, pôr os dados todos juntos e tens muito mais robustez estatística se os olhares para eles todos juntos do que de outra forma. Mas é exatamente isso. Ou seja, se houver muita gente ou muitos grupos a testar um efeito com amostras pequenas, o efeito medido ou o efeito estimado vai ter uma variabilidade muito grande, que como tu estás a dizer, alguns grupos medem um efeito positivo alto, outros um efeito positivo baixo, outros um efeito negativo alto, etc. Se os estudos tiverem muita potência estatística, digamos assim, porque usam muitas amostras, em princípio, esses vários estudos com amostras grandes vão estimar efeitos todos muito próximos uns dos outros, que é a melhor estimativa do efeito real. Quando tu pesquisas a literatura para estes estudos e faz o tal gráfico, o que tu verificas é que não vês um funil, mas vês que faltam efeitos negativos ou nulos em estudos com amostras pequenas. Pronto. Isto é a primeira evidência do tal viés de publicação que diz que um cientista, quando faz uma experiência com uma amostra pequena e não obtém um resultado que considera relevante, não o reporta. E, portanto, tens uma depleção de resultados negativos na literatura. Há um outro estudo que mostra uma coisa também muito curiosa, que aliás me fez lembrar as notícias na altura dos vistos gold de um pico de preços nas casas, imediatamente acima do meio milhão de euros. E tu tens exatamente a mesma coisa quando faz um meta-estudo da significância das experiências, que é, tens um pico imediatamente abaixo do 0.05 de significância.
José Maria Pimentel
Está ali tudo no 0.48, 0.49. Exatamente, está lá tudo encostado.
Nuno Barbosa Morais
E a questão é exatamente essa, o que se mostra é que isto resulta, por exemplo, de se numa amostra, ou num número de amostras, uma amostra que é a que impede o pivélio de baixar do 0.05, tipicamente há um instinto de a considerar anormal, um outlier de a remover, não necessariamente com má fé, mas porque se essa amostra se portar um pouco diferente das outras, vai haver uma intuição no cientista dizer "ah, neste dia em que eu fiz esta experiência algo correu mal", provavelmente não é credível. Obviamente que isto devia ser feito antes de se ver o resultado e não depois, mas a outra hipótese é se tu tiveres dois ou três testes estatísticos que tu consideras que de alguma forma testam a mesma coisa, provavelmente tendes a escolher aquele que te der o resultado mais significativo e é esse que reportas. Claro que se estás a usar testes diferentes e dão resultados diferentes, isto significa que eles não estão a testar a mesma coisa e aquele que dá o resultado mais significativo não é necessariamente aquele que melhor reflete a tua pergunta. Depois há uma senhora, a Annie Franco, fez um estudo muito engraçado, é que foi ver em projetos financiados o que é que estava escrito quando as pessoas se candidataram a financiamento e foi ver o que aconteceu a esses estudos nas publicações e há uma diferença brutal entre o que se disse que se ia fazer e o que depois é feito e reportado, o que faz pensar que as hipóteses que eram para ser testadas inicialmente não deram os resultados desejados, mas se encontraram outras observações para as quais se arranja uma explicação. Exato, é o "hacking", não é? Exatamente, é o chamado "hacking", "hypothesizing after results are known".
José Maria Pimentel
Problema disso é que isso não é muito diferente dos 20 cientistas a fazer a mesma experiência que tu falavas ao continho, no fundo é uma coisa análoga, não é? Porque se tu estás a testar indiscriminadamente diferentes hipóteses, tens um 5% de probabilidade de encontrar uma significante.
Nuno Barbosa Morais
De encontrar uma por acá, sim, e este problema agrava-se à medida que nós vamos trabalhando com dados de dimensões maiores, ou seja, com cada vez mais dados. Ainda mais dois, lembrei-me aqui de dois estudos engraçados, um é o que, se não estou em erro, foi em 2005 o Comitê Internacional de Revistas Médicas, precisamente inspirado nestes estudos que mostravam uma grande discrepância entre o que era anunciado, registado e o que se fazia, que exigiu precisamente disso, ou seja, os objetivos dos ensaios clínicos tinham de ser registados antes de arrancar para se candidatarem a serem publicados nestas boas revistas médicas. Portanto, ninguém podia publicar sem ter registrado previamente o que é que ia fazer nos ensaios clínicos. E o Ben Goldacre, que aliás é o autor de outro livro famoso chamado "Bad Science", mostrou que, antes disto, apenas 15% dos estudos reportavam o que tinham proposto que iam fazer, mas descobriu uma coisa muito mais engraçada, que foi o número de resultados que eram considerados positivos mas que não estavam associados à hipótese proposta, era comparável ao número de resultados não publicados. Portanto, o que nós estamos aqui a dizer é que 85% das duas, uma ou não validava a hipótese inicial... Ou validava a outra. Ou validava a outra. E, portanto, o que faz pensar novamente num efeito semelhante ao de Harkin, que é "eu gostei de uma coisa, vi resultados que me sugerem outra e vou contar a história ao contrário". E há uma mais comum, que esta é observada por nós quase cotidianamente, que é o chamado efeito Krizálida, que é a metamorfose do conteúdo científico de uma tese, por exemplo, de doutoramento, quando passa para a forma de artigo. Ou seja, um estudante de doutoramento desenvolve durante quatro anos um projeto em torno de testar uma hipótese e o que é interessante é que as teses de doutoramento normalmente são bastante honestas e bastante completas em relação ao que foi feito e às dificuldades encontradas e... mas depois, quando é necessário publicar esses resultados numa revista científica, revista por pares, o que se verifica é que é tudo muito mais limpinho, o potencial impacto dos resultados está enfatizado.
José Maria Pimentel
Isso já depois de peer review, não é? Já depois de revisão...
Nuno Barbosa Morais
Isso já depois de revisão por pares, mas o que nós não sabemos é quando o artigo foi submetido, se já não ia também com uma estrutura diferente. Não, não, desculpa, a minha pergunta não era... esse ponto também é relevante, mas
José Maria Pimentel
a minha pergunta era no sentido de se esperar que uma revisão por pares fosse tão ou mais rígida, tão ou mais exigente, quanto a revisão implícita na tese de doutoramento, que no fundo seria do orientador, não é?
Nuno Barbosa Morais
E é exatamente esse o problema, ou seja, estes viéses que eu descrevi, os pares que revêem artigos são cientistas, são colegas, não é? E, por outro lado, e a Maria Mota falou disto quando teve a conversa contigo, quem publica são revistas que têm critérios editoriais de impacto, ou se quiseres, de sexiness, não é? De quão sexy é esta descoberta... Sim, quando quão revolucionário é... Quão revolucionário é... portanto, quão disruptiva é esta descoberta. E a revisão por pares e o próprio critério editorial não é apenas de qualidade científica no sentido de robustez dos métodos e de seguir à risca o método científico, há muita preocupação de, para a nossa revista, vamos selecionar descobertas que a comunidade vai considerar revolucionárias. Tem mais impacto. E, portanto, o que acontece é que passa a haver um esforço dos autores para enfatizar o potencial impacto das suas descobertas e, como estão cientes de que vai haver este tipo de crivo, todos os resultados são reportados de uma forma enviesada para enfatizar esse impacto. Aliás, há um estudo, voltando à metaciência, há um estudo que mostra que entre 1974 e 2015 o número de palavras de termos positivos, ou seja, que dão um ênfase positivo às descobertas, por exemplo, uma que se vê muito "outstandingly" nos antigos, e eu estou a dizer em inglês porque a literatura científica é em inglês. Portanto, o estudo mostra que a frequência destas palavras de ênfase positiva aumentou nove vezes nesses 41 anos. Ok? Portanto, isto é extraordinário. Mas há outros estudos que mostram uma coisa ainda mais engraçada, que é que ensaios clínicos com resultados negativos e negativos no sentido de não se demonstrar o efeito que ia ser testado, cerca de dois terços desses estudos, ainda assim, publicam efeitos benéficos e uma forma de contornar, de conseguirem publicar ou reportar efeitos benéficos mesmo quando os ensaios não o demonstram é, por exemplo, usar termos do género. Mais antigos, não é? Sim, do género. Aqui vemos uma tendência quase significativa. Portanto, isto é comum em alguns desses estudos. Isto também mostra o problema de andarmos com limiares. Também é legítimo. Também é legítimo. Porque se limiar é arbitrário. Se limiar é arbitrário, exatamente. A liberariedade do limiar. Mas isto também é algo que é um esforço diário para nós, cientistas, e para nós também formadores de jovens cientistas, explicar, por exemplo, a cientistas menos experientes, que é muito fácil ver as tendências que queremos por acaso. E portanto, há que manter sempre este ceticismo. Mas isto só para explicar o porquê, ou seja, como é que nós sabemos que de facto estamos a exagerar um pouco, ou muito, o impacto das descobertas que fazemos na literatura.
José Maria Pimentel
E parte das causas, como tu já o dizes várias vezes, tem a ver com a maneira como o próprio sistema está construído. E já lá vamos. Mas eu acho que antes era interessante ir a outro aspecto que eu também já referiste, que é o impacto que tem tido também, sobretudo nos últimos anos, o surgimento do chamado Big Data, não é? De repente passaste a ter muito mais dados e ao mesmo tempo também, digo eu, a complexificação dos modelos, não é? Seja modelos estatísticos que se tornaram mais complexos, ou seja, métodos estatísticos mais complexos, ou depois a entrada em cena da inteligência artificial. Tu achas que isso, sobretudo nestas áreas cujo objeto de estudo está muito distante desta quantificação, não é? Como, por exemplo, a biologia e a medicina. E portanto, cujos cientistas, se calhar, também não têm essa formação de base tão forte, tu achas que isto tem sido um desafio adicional, não é? Sim, sim, um desafio grande.
Nuno Barbosa Morais
Portanto, isto de alguma forma amplifica o problema. O problema, pois. Digamos que, sobretudo a biologia celular e molecular, sofreu nos últimos 20 anos dores de crescimento nesse sentido. O que é que eu quero dizer com isto? Nós, a partir de finais dos anos 90, começamos a conseguir, eu aqui vou dar como exemplo aquilo que é mais próximo ao meu trabalho, mas essencialmente, como eu tinha dito, os humanos têm cerca de 20 mil genes codificantes de proteínas, digamos, que são unidades estruturais e funcionais dos nossos organismos. E mais ou menos a partir de meados dos anos 90, com uma tecnologia que eu não consigo traduzir para português, os brasileiros chamam-lhe microarranjos, que é os microarrays, nós conseguimos começar a sondar a atividade de todos os genes, ou da grande maioria dos genes, conseguimos começar a medir a atividade de todos os genes ao mesmo tempo. Ou seja, conseguíamos pegar numa amostra de um tecido humano e de alguma forma tirar uma fotografia a todos ao mesmo tempo. E isto, no início, como estas tecnologias eram caras, tu podias fazer isto, mas não podias fazer isto com muitas amostras. Então o que é que acontecia? Tu tinhas a possibilidade de testar, vamos supor que se estivesse a olhar para a atividade de 20 mil genes, testar 20 mil hipóteses ao mesmo tempo, mas com uma amostra relativamente pequena. E isso, por exemplo, leva muito aquilo a que já falamos aqui do harking, não é? De "ok, eu vou testar, vamos supor, vou comparar aqui amostras de tecido doente com amostras de tecido saudável, vou perguntar que genes é que mudam a sua atividade entre tecidos doentes e tecidos saudáveis e depois logo me preocupo com a explicação". Pronto, é exatamente isso. E sabendo disto, em estatística, tu deves fazer, quando fazes isso, é corrigir para testes múltiplos, ou seja, é controlares para o facto de se testares muitas vezes, digamos o p/L individual, o valor p/L individual, só vale para um teste, temos que o corrigir para o facto de estarmos a fazer isto muitas vezes. Mas, e eu aqui posso dar alguns exemplos, o que acontece é que tu podes sempre fazer os 20 mil testes, ver quais é que te dão o valor p abaixo de 0.5 e depois, de alguma forma, pensar "ah, eu tenho aqui uma boa hipótese para isto" e contar a história ao contrário. Ou seja, de alguma forma fazes de conta que sempre tiveste aquela hipótese que só foste testar aquela. Era só aquela. Curiosamente, um investigador português que trabalha em Inglaterra, o João Pedro Magalhães, recebeu um artigo muito engraçado, há uns anos, em que ele mostra, por pesquisas na literatura, que praticamente todos os genes humanos são associados a câncer, de uma forma ou de outra. Tu encontras sempre evidência. E isto eu semanalmente recebo para rever, e agora já não consigo dar conta do recado e já me recuso a fazê-lo, vários pedidos de revisão de artigos em que se mostra que um determinado gene tem valor prognóstico num determinado tipo de câncer. Aliás, eu posso dizer que um dos meus projetos para os próximos tempos é eu fazer uma análise em larga escala de dados para mostrar que se pode encontrar para cada tipo de câncer milhares de genes com valor prognóstico, sem que isso seja relevante. E aliás, uma consequência disto é precisamente a taxa de sucesso de ensaios clínicos em câncer e em outras áreas de ser baixos, precisamente porque estamos a levar a ensaio muitos falsos positivos. Não fazem sentido.
José Maria Pimentel
E na verdade isso mostra porque é que esta área é tão desafiante e está envolvida nesta crise, chamemos-lhe assim, porque tu tens os tais 20 mil genes que codificam para proteínas e eles não se expressam isoladamente, né? Sim. Expressam-se em conjunto uns com os outros. Sim. E depois ainda tens os fatores ambientais, né? Exatamente.
Nuno Barbosa Morais
Mas só o que tu disseste, eles se expressarem em conjunto, o que acontece é que cada gene pode estar envolvido em muitas atividades, ou seja, digamos, a atividade interage uns com os outros e há genes que estão, aquilo que nós chamamos de vias de sinalização, estão envolvidas, o mesmo gene pode estar envolvido em muitas coisas. E aí voltámos outra vez ao viés de disponibilidade, que é, se de repente um gene que te aparece está envolvido numa via de sinalização que te interessa e a probabilidade de estar envolvida em qualquer uma é muito alta, tu vais arranjar uma explicação. Por exemplo, na maior parte das vezes ao analisar os dados, tu vês genes associados a Alzheimer ou a Parkinson que também estão em vias de sinalização imunitárias muito importantes, não é? E portanto, tu consegues sempre ir aos resultados, buscar informação que de alguma forma se relaciona com a tua hipótese ou o teu interesse. Portanto, este problema do harking é muito comum quando fazes muitos testes e sobretudo quando fazes com amostras pequenas. Um exemplo fortíssimo do problema de reportabilidade associado a isto de testarmos muitas vezes com amostras pequenas é bem exemplificado pelos primeiros estudos de associação de genes com doenças. Ou seja, a partir do momento em que nós passamos a ter a capacidade de sequenciar DNA de indivíduos, nós já somos capazes de sequenciar DNA graças ao trabalho liderado pelo Fred Sanger há 50 ou 60 anos, mas a capacidade de sequenciar muitos genes ao mesmo tempo vem de há 20 anos. Portanto, o primeiro rascunho, digamos, da sequência do genoma humano foi publicado em 2001 e essa é a altura em que tornou-se mais acessível essa tecnologia. Mas novamente, sendo uma tecnologia cara, ainda não estávamos em condições de sequenciar muitas amostras para os grandes estudos. E então, uma das primeiras aplicações desta capacidade de sequenciar todos os nossos genes foi procurar genes cujas variantes genéticas estivessem associadas a doenças. Ou seja, procurar para determinadas doenças mutações, ou nós chamamos polimorfismos, que pudessem estar associados a essas doenças e de alguma forma dar uma base genética para um possível mecanismo e, eventualmente, até para uma abordagem terapêutica. E quando se fizeram os primeiros estudos, e a maior parte deles até eram do foro da neurologia, portanto, genes associados à esquizofrenia, por exemplo, foram encontrados bastantes genes e com efeitos bastante fortes, de acordo com esses estudos. Mas o que aconteceu depois, portanto, nessa altura houve um grande entusiasmo, agora que conseguimos sequenciar genomas, vamos descobrir as causas genéticas de todas as doenças, etc. Mas o que aconteceu foi que estas tecnologias que nos permitem olhar para o nosso genoma na sua escala completa, se foram tornando mais baratas, mais acessíveis, foram-se acumulando dados e quando estes estudos, digamos, de procura de genes candidatos a estarem associados com doenças, passaram a envolver amostras muito maiores, o que aconteceu foi que os efeitos que tinham sido reportados inicialmente não se verificaram, ou seja, eram falsos positivos. Estavas a fazer essa seleção? Estavas a fazer isto, ou seja, estavas a fazer… Voltando ao funil, estavas a escolher só o lado direito, não é? Estavas só a escolher o lado dos grandes efeitos. Ou o lado esquerdo, portanto. E, portanto, o que aconteceu foi exatamente isso. E isto até revela uma certa ingenuidade de quem se entusiasmou com os primeiros efeitos, porque os temas biológicos são muito complexos e já há 100 anos o Fischer postulava que a maior parte dos efeitos eram poligénicos, ou seja, que a maior parte do que nós observamos é o coletivo de efeitos pequenos de muitos, muitos genes e hoje a grande dificuldade em estudar a base genética das doenças é precisamente essa. É que a maior parte delas, a maior parte das coisas que correm mal nas nossas células e nos nossos organismos, se tiverem uma base genética, não têm um gene causador, têm pequenos efeitos de muitos genes juntos.
José Maria Pimentel
Por isso é que aquela revolução do CRISPR não teve tanto impacto como se esperava inicialmente, porque há um ou outro caso em que tu consegues alterar o gene e de facto ele está diretamente associado à doença, mas na maior parte dos casos terias que alterar muitos e depois, é que digo, acrescento eu, não tenho certeza se é verdade, provavelmente é, mesmo conseguisse encontrar, descobrir os genes associados a determinada doença, se fosse alterá-los todos terias outros efeitos secundários que se calhar também não são desejáveis. Não, exatamente. Ou pelo menos imprevisíveis.
Nuno Barbosa Morais
E voltando ao Fischer, o Fischer até foi a primeira pessoa que deu uma base mais quantitativa à teoria da seleção natural do Darwin e uma das coisas que ele também concluiu, acho que não explicitamente, mas que se inferia dos trabalhos dele e que hoje se sabe, é que uma alteração genética que tenha um efeito muito forte, sobretudo negativo, nunca será selecionada, não é? Portanto, era altamente improvável encontrarmos um gene causa da doença com efeito muito forte na população. Pronto, portanto, às vezes voltamos a estes viés, há um entusiasmo que até não é justificado olhar... A olhar da própria lógica, não é? Sim. Há aqui uma outra, só para responder de forma mais completa à tua pergunta, das consequências do crescimento de numerodades, mas também das dificuldades estatísticas. A evolução das metodologias quantitativas. Voltando ainda um bocadinho atrás a esta questão do tamanho da amostra e da significância, um dos grandes problemas, até quase éticos e morais, com o qual lidamos nesta crise de reportabilidade tem a ver com a experimentação animal, por exemplo. Ou seja, há uma preocupação entre os cientistas de minimizar o número de animais usados em experiências e sacrificados em experiências quando é necessário. E então o que acontece muitas vezes é quando tu vais ver o que está publicado usando animais, só 0,7% dos estudos, portanto menos de 1 em 100, é que explicam como calcularam o número de animais necessários para testar um determinado efeito. E, portanto, o que acontece é que nós temos a maior parte dos estudos que envolvem animais precisamente por um bom motivo, ou seja, a preocupação de sacrificar o mínimo possível, não tem poder estatístico suficiente, ou seja, é muito comum ser 3 contra 3, por exemplo. É, isso é menos que o exemplo do chá. É, é menos que o exemplo do chá e do leite, exatamente. E então o que acontece é que, a isto eu ainda posso, se quiseres, somar alguns outros problemas como só cerca de 25% é que tem um design aleatório, só 30% é que fazem, digamos, os ensaios de forma cega, que é a pessoa que está a fazer a experiência não saber quais são os grupos envolvidos e qual a pergunta, mas o problema que aqui se coloca, voltamos ao funil, não é? É que quando fazes estudos com muito poucos animais, tu só reportas resultados fortes. E porquê também? Porque para atingires uma significância estatística, o tal P de 0,05, com poucas amostras, precisas de um efeito mais forte, ou seja, se tens menos evidência para um efeito, para afirmares o efeito, o efeito tem que ser mais forte. Ora, qual é o problema disto? É que, um pouco como os genes candidatos nos estudos de associação genética, o que tu estás a reportar são efeitos falsamente fortes, mas que servem de base para estimar a potência estatística dos estudos subsequentes. E portanto, se tu num estudo que se inspira no outro que reportou um efeito forte, tu vais desenhar um estudo com menos amostras do que há que seria necessário porque estás a sobreestimar o efeito e se estás a sobreestimar o efeito não precisas de uma amostra tão grande. Isto, no fundo, é um problema porque, na prática, provavelmente na experimentação animal, nós devíamos eventualmente fazer menos estudos com mais animais, ou seja, aceitar que para fazer um bom estudo sacrificamos mais animais, mas não fazer tantos pequenos estudos que não têm potência estatística. Depois tens aí o problema ao contrário, que é quando tu fazes crescer muito o número de amostras, qualquer efeito diminuto tem significância estatística porque, na maior parte destes testes de hipóteses, sou ponto de vista, se quiseres, quantitativo ou matemático, a hipótese nula é não estar a acontecer nada, mas 0.000 efeito. Ora, se tu acumulares uma amostra muito grande, tu vais ter potência estatística para atribuir significância a efeitos muito pequenos. Aliás, na natureza nenhum efeito é zero, nada é 0.000.
José Maria Pimentel
Já agora explica só matematicamente porque é que isso acontece, para quem nos está a ouvir. Ou seja, porque é que a significância aumenta para o mesmo efeito que o aumento da amostra? Isso tem a ver com o fato do desvio padrão?
Nuno Barbosa Morais
Sim, o teu grau de incerteza sobre o que estás a medir vai diminuindo à medida que tu aumentas o tamanho da amostra. Portanto, se estiveres a medir uma diferença, vamos supor, entre dois grupos, a precisão com que medes o que está a acontecer em cada um dos grupos é muito alta e, portanto, se a diferença observada for superior à precisão, tu podes dizer que essa diferença é significativa. Agora, com amostras muito grandes, podemos estar a falar de uma alteração de 0,1% por exemplo na atividade de um género. Ora, nunca ninguém em biologia fez uma experiência a demonstrar que perturbar em 0,1% a atividade de um género tem qualquer efeito relevante, ainda que seja significativo. E o que passa a acontecer… Agora, desculpa interromper-te outra vez, mas é importante, acho que para quem está
José Maria Pimentel
a ouvir, diferenciar estes dois conceitos. Uma questão é a dimensão do efeito, se vai voltando àquele meu exemplo meio tosco de comer uma maçã por dia, não é? Uma questão tem a ver com quantos mais anos de vida tu terás de comer uma maçã diariamente e o outro, a significância, tem a ver com esse efeito ser estatisticamente significativo no sentido de nós acharmos que ela não surgiu por acaso nesta amostra. Que ela não surgiu por acaso e que é reprodutível. Ou seja, por outras causas quaisquer ou por ser aliado.
Nuno Barbosa Morais
Mas aqui há tal questão que é, nós queremos ter observações reprodutíveis, mas os efeitos que estamos a testar, nós estamos a testá-los na assunção de que eles são relevantes, não são só uma observação reprodutível. Exatamente. Sim, sim. E o que acontece, nós muitas vezes dizemos precisamente que a dimensão do efeito é o elefante na sala, quando se trabalha com grandes dados, é que se a hipótese do investigador passar por demonstrar significância na rejeição da hipótese alternativa, a dada altura o investigador agarra-se à significância e esquece que provavelmente o efeito que demonstrou ser significativo não é suficientemente forte para ter qualquer... Esquece o que devia ser mais importante. Esquece o que devia ser mais importante. Ou seja, na prática as duas são importantes. Aliás, o que nós... Não é mais importante, o ponto de partida. O ponto de partida devia ser esse, exatamente. O que nós fazemos, aliás, quando olhamos para este tipo de dados, é fazer o... nós chamamos os gráficos de vulcão, os volcano plots, que é colocar no oeste do X o efeito e no oeste do Y a significância. E porquê é que nós chamamos o vulcão? É porque, em princípio, consideramos no oeste do X efeitos positivos e negativos, mas em princípio suspiras que quanto mais extremos seja o efeito, maior também a significância. Quando há esta proporcionalidade, em princípio, o que tens é um gráfico quase em forma de V, faz lembrar um vulcão em erupção se for desenhado com muitos pontos, e o que te interessa é buscar os cantos superiores deste gráfico, que é "eu tenho evidência, estatisticamente significativa, de que este é um efeito forte". E esses seriam, em teoria, os... e na prática, efetivamente, é o que se mostra, os efeitos mais relevantes. Portanto, os que de facto têm forte probabilidade de serem biologicamente relevantes e são reprodutíveis, são estatisticamente muito significativos. Digamos, todas estas dificuldades em lidar com a estatística agravam-se com os grandes dados e agravam-se de várias maneiras. Entram os vieses outra vez também. Entram outro tipo de viese, exatamente. Portanto, um deles é, referi agora, a significância de efeitos diminutos, a outra é, por exemplo, aquilo que se chama o "overfitting", que é, tu tens muitos dados, queres explicar os dados, então vais à procura de um modelo que explique os dados. Mas, maiormente em biologia, os dados são bastante ruidosos e se nós exageramos nesta preocupação de encontrar um modelo que explique os dados, a dada altura estamos a encontrar um modelo para o ruído dos dados. O que é que isso significa? Significa que quando aplicarmos o nosso modelo a novos dados da mesma natureza, ele já não vai encaixar nos novos dados. Portanto, este é um dos problemas.
José Maria Pimentel
E isso tem a ver, não é muito diferente, não é a mesma coisa, mas não é muito diferente de novo daquela questão dos vinte cientistas a fazer a mesma experiência ou testar várias hipóteses, porque como tu não tens uma hipótese de base, tu estás a fazer a coisa retroativamente, estás a olhar para os dados e a tentar arranjar um modelo que encaixe ali.
Nuno Barbosa Morais
A natureza da crise da reportabilidade passa por aí, que é de repente nós somos inundados com dados e vamos à procura de alguma coisa interessante e testamos tudo até aparecer qualquer coisa interessante. E a mesma coisa é, se tivermos que explicar os dados, vamos à procura sempre de um modelo que os explique e vamos à procura de algo que depois se possa dizer "faz sentido". Aliás, eu já fiz uma outra vez mal dados a alguns colegas meus só pelo prazer de testar isto academicamente, que foi tornar resultados de uma análise aleatórias e dar a colega meus para interpretar e eles encontravam explicações até bastante coerentes com o que estava na literatura, pouco estava a acontecer, precisamente porque não estavam cientes de que todos estes viés pudessem fazer encontrar coisas explicáveis em resultados aleatórios. E isto também é muito, esta tendência humana, acho que se chama apofonia, não é, de encontrarmos padrões em tudo, não é, de vermos um cavalinho quando olhamos para uma nuvem, etc. Aplica-se muito quando, com dados de grandes dimensões, quando, por exemplo, os pomos em gráfico e vemos padrões que nos parecem ser resultado, digamos, de um efeito, no nosso caso, por exemplo, biológico, mas que resultam do acaso. Há um exemplo histórico, mas eu também te vou dar um exemplo nosso, digamos, da investigação biométrica. Foi quando, durante a Segunda Guerra Mundial, os ingleses olharam para o padrão de incidência das bombas alemãs, não estou a enrufar mesmo em Londres, e quando olhavam para o mapa elas pareciam concentrar-se em zonas estratégicas e gerou-se o pânico que, afinal, os alemães já tinham uma tecnologia de direcionamento nos bombardeamentos muito avançada. E depois vieram os estatistas e disseram "não, não, fiquem tranquilos que este padrão é compatível com a aleatoriedade e eles estão a disparar ao acaso e é onde acertar". Tu tens uma coisa que acontece, por exemplo, quando fazes mapas de incidência de doenças, por exemplo cancro, mapas geográficos desta incidência e, pelo acaso, um concelho vai ser sempre uma incidência um bocadinho maior ou um caminho menor que no concelho ao lado, uma freguesia vai ter uma incidência maior que a freguesia ao lado.
José Maria Pimentel
Sim, sim, porque se a distribuição for aleatória vai ser em forma de sino, não é? Portanto, vai ser os casos-semes, vai ser freguesias ou concelhos, etc.
Nuno Barbosa Morais
E esta aleatoriedade muitas vezes não é bem percebida e então começam os epidemiologistas mais incautos ou provavelmente os epidemiologistas, não tanto porque já estão formados, mas colegas que não estão habituados a estes estudos, a questionar-se porquê é que aquele concelho tem uma incidência mais alta, porquê é que aquele tem uma incidência mais baixa e à procura. E aí entra novamente esta questão de ir procurar explicações e de certeza que se vai encontrar uma explicação, ainda que não válida, para isso porque, obviamente, há muitas diferenças entre concelhos e freguesias que tu podes associar estas incidências mesmo que não sejam verdade, ou seja, a correlação não é causalidade nesse sentido. Um outro problema associado, no fundo, a este acumular de dados e, de alguma forma, à má formação, a estatística dos cientistas, tem a ver depois com o próprio uso dos computadores e do software de apoio a estas análises, não é? Ou seja, há um problema que é a utilização deste software como caixas negras. Eu sou dos que advoga softwares de análise como sistemas de apoio à decisão, no sentido em que o programa nunca dá respostas, está lá apenas para fornecer boa informação ao investigador para tomar decisões e encontrar a resposta, mas, obviamente, que se usarmos um programa como uma caixa negra, fazemos entrar os dados e podemos até otimizar os parâmetros do programa sem saber exatamente o que é que estamos a fazer, até dar em algo que nos parece uma boa resposta.
José Maria Pimentel
Porque é mais análogo, no fundo, esses programas são mais análogos a um programa estatístico que propriamente é um instrumento de medição, por exemplo. Exatamente, exatamente.
Nuno Barbosa Morais
E, portanto, a questão, aliás, tenho tido muito essa preocupação quando apresento o nosso trabalho, dizer o seguinte, quer dizer, se dois programas que é suposto testarem a mesma coisa não vos derem a mesma resposta, claramente não estão a testar a mesma coisa nem a fazer a mesma pergunta e, portanto, é importante perceber, mesmo que continuem a usar os programas e tirar proveito do processamento dos computadores, como é que cada passo de uma análise informática traduz a pergunta científica. Esse é um aspecto muito importante e, depois, isto agrava-se ainda mais quando começamos a entrar pela utilização de algoritmos de aprendizagem automática, inteligência artificial para classificar coisas e encontrar padrões nos dados que nos permitam fazer previsões, etc. E não sabes mesmo o que está a passar lá dentro. Não sabes o que está a passar lá dentro e, portanto, nós acontecemos, em Biologia já acontece-se muitas vezes, haver esse tipo de problemas da caixa negra em que o que nós questionamos ou olhar para os resultados, essa qualidade dos dados que entram, ou que temos que questionar sempre, por exemplo, quando usamos algoritmos de aprendizagem automática e de inteligência artificial, é se a qualidade dos dados é o suficientemente boa, por exemplo, para não refletir os nossos próprios viés, ou seja, não estarmos a ensinar a máquina a pensar com os mesmos viés que nós temos. Aquela expressão do "garbage in, garbage out".
José Maria Pimentel
Exatamente. E para quem nos está a ouvir há exemplos.
Nuno Barbosa Morais
A maior parte dos exemplos mais engraçados são, por exemplo, algoritmos de análise de imagem para um caso assim mais mundano. Foi um algoritmo de análise de imagem desenvolvido para distinguir cães de lobos a partir de fotografias. E foi um algoritmo que foi treinado, portanto, com muitas fotografias de cães e muitas fotografias de lobos e que tinha uma performance extraordinária. Mas houve um dia em que o algoritmo falha porque lhe foi dada a fotografia de um husky e ele chamou-lhe lobo e foi-se ver o que é que estava a acontecer. Pronto, os huskies até são relativamente parecidos com lobos. Digamos, quando se abriu a caixa negra, o que se descobriu é que o algoritmo não estava a classificar o animal, mas estava a classificar o ambiente envolvente. Ou seja, porquê? Porque todos os lobos eram fotografados no estado selvagem e todos os cães tinham sido fotografados ou em ambiente doméstico, em jardins, etc. Este husky, curiosamente, estava na neve e, portanto, como a maior parte de fotografias com canídeos na neve eram lobos, assumiu que eram lobos. Isto pode acontecer. Isto é um caso de overfitting, no fundo. Isto é um caso... Ele esteve a interpretar ruído como sinal, não é?
José Maria Pimentel
Sim, sim.
Nuno Barbosa Morais
Ou então, eu não diria que é bem de overfitting, esteve a interpretar foi um sinal que estava confundido com o sinal que se cria. Sim, sim. E isso é um problema experimental. Esta questão dos efeitos de confusão, de confounding, são muito comuns. Daí a questão do, também, como estávamos a discutir, do correlação não ser causalidade. Sim, sim.
José Maria Pimentel
E eu acompanho outro exemplo muito parecido com esse, que era com vacas, que as imagens que tinham sido fornecidas ao algoritmo eram todas de vacas, se eu me engano eram todas de vacas, quer dizer, brancas com pitas pretas e, portanto, o que o algoritmo estava a apanhar como significando vacas era, entre outras coisas, e se calhar, sobretudo, esse padrão da coloração do pelo, não é? Sim, sim. E, de repente, depois uma vaca castanha, que nós sabemos que é uma vaca não mesmo, mas que não tem aquela cor, e ele não a apanha como sendo uma vaca.
Nuno Barbosa Morais
Sim, ou um cão atrás da sombra de um gradeamento ser classificado como um tigre, não é? Sim, exato. Por causa das riscas, é muito comum. Mas estes exemplos engraçados chamam a atenção para isso, é que a utilização destes algoritmos poderosos, a boa utilização até depende mais da qualidade dos dados do que propriamente a qualidade dos algoritmos. Exato. E, portanto, temos que estar muito atentos a como treinamos esses algoritmos nas nossas análises. Sim.
José Maria Pimentel
Contribua para a continuidade e crescimento deste projeto no site 45grauspodcast.com. Selecione a opção "Apoiar" para ver como contribuir, diretamente ou através do Patreon, bem como os benefícios associados a cada modalidade. Eu queria voltar àquilo que nós falámos mais no início, os aspectos mais institucionais, ou seja, da maneira como a ciência está organizada, porque isso depois também nos leva às soluções, enfim, para estes desafios, para a reia de problemas, para lá daquilo que nós já fomos falando, que tem mais a ver com literacia quantitativa. Antes disso, há uma explicação possível para este fenómeno, que nós ainda não falámos, e que de certa forma desculpabiliza os outros fatores que nós fomos falando até aqui, seja da negligência ou destes incentivos que o sistema de publicações cria. É possível que a ciência tenha, de certa forma, não digo esgotado, mas pelo menos já tenha consumido a maioria daquilo que costumamos chamar de "low-hanging fruit", com aquela analogia de uma árvore, não é? Tens os frutos que estão acessíveis pela tua mão, tu passas e tiras-os, enquanto os outros que estão lá em cima dão-te muito mais trabalho, tens de fazer uma escada, admitindo aqui nesta analogia que não tens uma escada à mão, ou no mínimo tens de subir a escada, tens de te esticar mais, tens de andar à procura porque eles estão escondidos atrás da folhagem, dá muito mais trabalho. E a verdade é que há, e depois ponho isso nas referências, ainda há pouco tempo apanhei um estudo de metaciência, na verdade na altura não pensei que seria de metaciência, mas era de metacientistas de certeza, que analisavam em várias áreas, eu sei que incluía as ciências naturais e as ciências sociais, o impacto das descobertas. Não sei como é que eles quantificavam a questão do impacto, mas o gráfico era interessante porque era uma linha descendente, que não era a mesma para todas as áreas, mas tinham comum o facto dessa tendência descendente, ou seja, no fundo, com o passar das décadas o low-hanging fruit tinha sido colhido, portanto aquelas descobertas com maior impacto e agora o que tu estavas a descobrir eram descobertas com um impacto mais pequeno, não é? Será que isso pode explicar o que está a passar aqui também? Sim, eu acho que sim.
Nuno Barbosa Morais
A questão aqui é que há muito mais publicações do que havia no passado, há muito mais gente a fazer ciência e provavelmente o número total de grandes descobertas não cresceu tanto, ou seja, eu acho que esse efeito é sobretudo um efeito proporcional. Então não é o número total, é o impacto médio? O impacto médio, sim, sim. Ok, por acaso não tenho certeza, mas é possível. Continua a fazer, eu acho que sei a que estudo estás a referir e o que parece acontecer é que nós aumentamos muito o número de cientistas, de instituições a fazer ciência, mas continuam a ser as mesmas ou mais ou menos o mesmo volume de cientistas a que poderíamos fazer as grandes descobertas. Mas esse, se estávamos a pensar no mesmo estudo, também é preciso interpretar esses dados com algum cuidado, por exemplo, porque uma parte da avaliação de qual o impacto das descobertas passa também pela análise de citações, não é? E por exemplo, se eu estivesse a medir, como falei há pouco, expressão gênica com tecnologia de microarrays e passar a medir consequenciação, os artigos de microarrays deixam de ser citados. Portanto, há aqui um fenómeno importante que é, nós temos que perceber, por exemplo, nesta dinâmica de medir impacto com base em citações, se há fenómenos destes, é, causou-se a tecnologia e cria uma descontinuidade. Isso é verdade. No entanto, eu sinto que em termos proporcionais, ou seja, o número de descobertas importantes não acompanha o crescimento da comunidade e, portanto, nisso eu não tenho grandes dúvidas. Mas isso é normal. Isso é normal, não é? Sim. Agora, o que acontece é exatamente isso, é que com algumas exceções, portanto, não é para generalizar, com algumas exceções, as grandes descobertas e que tu podes chamar de low hanging fruit, num estado atual, agora toda a fruta está muito alta. Exato. Mas o que eu digo é que, normalmente, o que acontece é que há grandes descobertas quando, por exemplo, uma tecnologia permite mudar a escala com que se mede qualquer coisa. No caso da investigação biomédica, a partir do momento, como eu disse, em que tínhamos a capacidade de medir a atividade de todos os genes ou sequenciar todos os genes, há alguns avanços importantes que se fazem, precisamente agarrando essa low hanging fruit. E há algumas exceções interessantes que até são circunstanciais. Por exemplo, as vacinas da RNA que nos ajudaram a resolver o problema da pandemia não foram desenvolvidas, a tecnologia não foi desenvolvida especificamente para o SARS-CoV-2, não é? As vacinas da RNA estavam a ser desenvolvidas a pensar sobretudo em cancro, mas ainda não tínhamos chegado a um ponto em que conseguíamos demonstrar eficácia e essa tecnologia foi adaptada e mostrou ser muito mais eficaz a resolver esta pandemia por um vírus. Portanto, muitas das vezes, até já há tecnologias potencialmente disruptivas, no bom sentido, digamos, a serem marinadas nos laboratórios, mas a aplicação que permite essa revolução não está presente. Mas o problema aqui é o seguinte, é que precisamente porque é, como tu dizes, mais difícil chegar à fruta alta, há também algo que, na minha opinião, é contraproducente, que é a tendência para os cientistas se hiper especializarem a irem à procura do tal nicho distante, focarem-se numa fruta que está lá muito em cima da árvore e arranjar, digamos, a sua zona de conforto para fazer a investigação em torno desse nicho. Obviamente que isto faz, e aqui usando a mesma analogia, se quiseres da ciência procurar estender os limites do conhecimento e se olharmos para este conhecimento, pensássemos nesse conhecimento como uma esfera, na prática o que estamos a fazer é com que os limites de conhecimento estejam a expandir-se mais à moda de um oriço.
José Maria Pimentel
Até podemos manter na analogia, pode ser a copa da árvore. Ou a copa da árvore, exatamente. Não estás a ir a alguns pontos da copa, mas há outros que estás a ir lá muito mais longe.
Nuno Barbosa Morais
Sim, mas num certo sentido a copa, ou pelo menos os gajos que estão mais longe, provavelmente têm menos folhagem, portanto dão por daí esse aspecto oriço, porque não conseguimos com esta capilaridade cobrir toda a fronteira. E ao mesmo tempo, na minha opinião, ficam também com esta especialização, ou seja, passa a haver vazios entre os galhos e provavelmente até ficam buracos na base. Qual é o problema disto? É que muitas das grandes descobertas resultam de empreitadas coletivas, de sinurgia de pessoas com formação diferente ou de pessoas que têm uma formação mais horizontal que fazem pontes entre áreas. E na minha opinião o que está a acontecer é que a maior parte dos estímulos que temos em investigação não só não promovem muito a colaboração entre disciplinas, mas também não promovem a formação transversal e interdisciplinar. Promovem uma hiperspecialização das cientistas. Uma hiperspecialização e não, e provoca sobretudo algo que nós estivemos a discutir nesta conversa, que é, tomando os exemplos da estatística ou dos algoritmos, para usar bem estatística em biologia, tu precisas de pessoas que saibam de estatística, mas que percebam a natureza dos dados biológicos, ou seja, precisas de estatísticos muito interessados em biologia ou de biólogos muito interessados em estatística. Se tu quiseres, e isto é muito na linha do que nós fazemos no IMM, aquilo que se chama a biologia computacional ou a bioinformática, se tu quiseres aplicar algoritmos a dados biológicos tens que ser um biólogo que percebe bem os algoritmos em que te interessa ou um cientista da computação que tem muito interesse pela biologia e pela estrutura daqueles dados. É um caminho difícil. É um caminho difícil e o que acontece infelizmente é exatamente isso. Uma das fontes desta crise de reportabilidade no que é publicado está associada precisamente à revisão por pares, falhar, por exemplo, na parte estatística e falha porque não há gente suficiente para rever todos estes artigos com essa preocupação.
José Maria Pimentel
No fundo, não há pessoas que consigam rever um paper de biologia avançada, chamemos-lhe assim, e que tenham também competências avançadas da parte quantitativa.
Nuno Barbosa Morais
Exatamente e muitas vezes também aqui há uma crítica implícita aos meus colegas mais biólogos, mas há também o contrário, ou seja, há muitas vezes dá-se um artigo para rever um estatístico e não havendo um interesse muito grande no problema biológico há uma série de assunções em relação à forma como os dados são gerados, etc, que não estão corretas e portanto há críticas muito injustas porque não se perceberam os dados. Eu posso dar um exemplo muito simples, eu sou muitas vezes convidado para fazer arguências de tese de mestrado em que o estudante, o candidato, trabalhou com a orientação de uma pessoa de biologia e uma pessoa, vamos supor, de informática e o trabalho envolvia análises de grandes dados biológicos. Eu trabalho muito com dados de RNA e o que acontece quando nós trabalhamos com estas tecnologias com dados de sequenciação para medir a atividade de genes, as medidas são relativas, ou seja, não são absolutas. Eu não consigo dizer exatamente quantas moléculas de RNA de um determinado gene estavam dentro de um tecido, mas consigo dizer relativamente às moléculas de RNA de outro gene no mesmo tecido, mas não consigo comparar os números diretamente e portanto para eu tornar... Porquê? Porque o tamanho da mostragem de moléculas não é o mesmo da mostra para mostra, portanto eu tenho que normalizar para o número de leituras, para o número de moléculas que é real. Pronto, tudo bem, estatisticamente ou matematicamente isto não tem dificuldade de fazer, o processo chama-se normalizar os dados, que é tornar os dados comparáveis. Só com o RNA há aqui um aspecto muito curioso que é, tu podes normalizar para o peso total da RNA, ou seja, qual era a massa da RNA que estava no tecido e porquê é que pode ser importante fazer isto? Porque quando tu sequencias os RNAs são partidos em fragmentos, todos mais ou menos com o mesmo tamanho e uma molécula longa vai ter mais fragmentos sequenciados, portanto mais informação que uma curta. Ou podes normalizar para o número total de moléculas. Isto são coisas diferentes porque se uma amostra tiver uma tendência para ter moléculas de RNA mais longos e outra mais curtos, vai fazer toda a diferença normalizar para o peso total ou para o número de moléculas. Repetidamente quando eu vou fazer estes exames eu pergunto que normalização foi feita e porquê e o que me apercebo é que muitas vezes não recebo resposta porque o orientador de biologia confiou no colega que é bom analisar dados e portanto nem sequer se fez essa pergunta será que ele está a normalizar para o número total de moléculas ou para a massa. E o outro não tinha noção. E o outro não tinha noção de que isto era importante e correu a normalização que era mais elegante ou mais limpa ou que matematicamente fazia sentido sem ter pensado que isto é muito importante. O que tu precisas tipicamente é um exemplo de faltar ali um, eu quase diria uma empatia entre os dois lados e isto no fundo é numa escala diferente também o problema das duas culturas do Charles Quartz e Sinó, não é? Que é nós olhamos sempre para o outro especialista como alguém que está na outra área. É muito curioso, eu sendo biólogo computacional, eu faço uma, isto é em jeito de piada, mas eu faço, é muito engraçado que eu digo que os colegas que mais me respeitam me chamam especialista e os colegas que menos me respeitam me chamam generalista porque como o ser generalista é visto como uma coisa negativa e o ser especialista é que é visto como uma virtude. Portanto na prática para alguém que me vê como diferente eu sou especialista de outra coisa ou alguém que não acha muita piada esta superficialidade ou aparente superficialidade de alguém que cobre muitas áreas como se faltasse. No fundo é verdade, não é? Nosso cérebro é limitado e o teu conhecimento pode ser mais horizontal ou mais aprofundado. Mas a profundidade é que perdes as ligações, não é? Exatamente, é um pouco isso, portanto há espaço para todos, no fundo é a mesma coisa.
José Maria Pimentel
E no fundo esse era um aspecto institucional que nós não tínhamos falado no início e portanto é a ponta perfeita para nós falarmos desses aspectos institucionais porque essa tendência para a hiperspecialização que existe em todas as áreas da ciência, naturais ou sociais, no fundo aqui neste caso provoca que o cientista que está a fazer o trabalho muitas vezes não tem noção de determinados factos que precisaria de saber e quem está a avaliar esse trabalho, sejam os orientadores da tese, sejam os peer reviewers, os pares que estão a fazer a revisão, muitas vezes também eles próprios têm essa meio-pia, não é? Eles próprios têm as sangue-luz morta e isso no fundo explica ou ajuda a explicar porque é que este sistema de revisão por pares, que é um, como tu explicaste logo no início da nossa conversa, é um dos alicerces da ciência moderna, por vezes não está a funcionar bem, não é? Sim, sim, exatamente. E isso explica, a par destes desafios das estatísticas, explica, enfim, explica esta crise, chamamos-lhe assim, ou pelo menos o facto de de repente haver conhecimento que se julgava estar acumulado e não corresponder exatamente ao conhecimento.
Nuno Barbosa Morais
Sim, estás a pegar num dos, chamamos-lhe, estímulos perversos que gera este problema, não é? Que é o estímulo à publicação, mas há aquela primeira parte de que eu já falei, não é? Que há um viés para só publicarmos resultados considerados positivos, mas depois nós temos de perceber que a carreira de um cientista, quando digo carreira, quer em termos de posições académicas ou de cargos académicos, quer em termos de financiamento para a sua investigação, está muito dependente das publicações e está dependente dessas publicações a vários níveis. Podemos pensar, digamos, em várias dimensões do problema. Uma é o número de artigos, não é? Portanto, há uma tendência a valorizar quem publicou muito numa determinada área. Isto faz com que as pessoas façam, digamos, fatiem aquilo que vão publicando em muitos artigos para criar uma ideia de um grande corpo de conhecimento na área em que os próprios estão envolvidos.
José Maria Pimentel
E fará também com que as pessoas, tendo essa pressão para publicar, publiquem mais rápido e, portanto, sem ter… Sim, e era aí que eu queria chegar.
Nuno Barbosa Morais
Portanto, isto é imediatamente um fator para baixar a qualidade do que é publicado, porque primeiro há uma pressa em publicar, portanto, as pessoas acabam por ser, de forma não intencional, mais negligentes com o que lançam para a publicação. Como há uma avalanche de artigos, há uma indisponibilidade de tempo dos revisores para fazerem uma boa revisão, portanto, a qualidade da revisão baixa. Há também o aparecimento de revistas chamadas revistas predatórias, não é? Revistas que, desde que pagas, publicam o que tu quiseres e tu despachas o assunto, colocando na literatura um artigo que não foi bem revisto. Portanto, esse é um problema e aqui eu ainda poderia, nós ainda poderemos, de compor-no mais, no caso da biologia, por exemplo, a ordem dos autores conta. E, portanto, normalmente assume-se que o último autor coordenou o estudo, o primeiro autor foi quem fez a maior parte do trabalho e depois a ordem dos autores vai das pontas para o meio por ordem de crescente ou de quantidade de trabalho ou de grau de senioridade nos artigos. E são muito mais valorizados, numa fase junior, o número de artigos como primeiro autor e numa fase sénior, os artigos como último autor. Por outro lado, há a questão do impacto dos artigos. Tu podes me dizer "ah, tu publicas muitos artigos, mas se forem uma porcaria, ninguém te os vai valorizar". E então, como é que nós medimos se um artigo é bom ou não? E o que acontece é que há duas formas. Uma é olharmos para o fator de impacto da revista onde é publicado. Portanto, a Maria Mota explicou isso bem, não é? Há revistas que têm um prestígio muito maior. A Nature Science. A Nature Science, no nosso caso a Cell também. E, portanto, tu almejas publicar numa dessas grandes revistas porque coloca-te a tal medalha ou tal selo de impacto no teu trabalho. Mas, obviamente, voltamos à conversa inicial, isto é um estímulo a exagerar a importância do teu trabalho e o impacto. Então, não só esta avalanche de artigos, mas também esta questão do fator de impacto da revista em que se publica fez com que se pensasse "bom, vamos então medir o impacto de cada artigo pelo número de citações". Ou seja, pelo reconhecimento pelos pares. Aliás, criou-se uma métrica chamada o H-Index, que basicamente procura este equilíbrio entre publicares muito e bem, não é? Teres bastantes artigos, muitos citados. E porque se tu fizeres uma análise de citações na literatura, um terço dos artigos nunca são citados e mais de metade são citados por aí uma vez e provavelmente são citados por um amigo ou pelo próprio. E, portanto, o que acontece… É uma distribuição de power, não é? É uma distribuição de… Exatamente, é uma coisa muito próxima disso. O que significa que há uma minoria de artigos que são considerados relevantes. Portanto, há muitos artigos irrelevantes. E então, passou a haver uma preocupação de estimular as pessoas a produzirem artigos que de facto venham a ser citados porque são sólidos e porque têm descobertas reprodutíveis, etc. Mas, obviamente, que isto também criou fenómenos de cartel entre autores e revistas, porque obviamente, normalmente, os editores das melhores revistas… Não estou a falar dos editores profissionais que são contratados pelas revistas, mas, de determinadas vistas, têm uma equipa editorial alargada de cientistas de nomenária que ajudam neste processo de selecção dos melhores artigos. E, portanto, obviamente… Uma espécie de conselho consultivo, não é? Uma espécie de conselho consultivo, sim, exatamente. E na escolha, por exemplo, de escolher quem são os melhores revisores para um artigo, etc. Portanto, todo este trabalho também gera, dá poder a quem está numa posição de editor ou de revisor. Até, aliás, é muito comum submeter-se um artigo para revisão e, com base nas revisões, saber quem foi o revisor, porque te pede para citar, está a faltar a citação ao seu próprio artigo. Ah, muito bom. Este tipo de cartéis. Portanto, os estímulos à publicação, neste caso, estão associados precisamente a isto, é que a tua carreira depende do número e do impacto e das citações dos teus artigos, o financiamento para a tua investigação também depende deste teu currículo e, depois, isto gera círculos viciosos, porque o que passa a acontecer é que tu entras naquilo lá que se chama efeito Matthew de Mateus, não é? Que é da parábola dos talentos de São Mateus, que é "os ricos ficarem mais ricos". Ou seja, publicaste na Nature, às tantas consegues uma posição académica mais elevada e de financiamento, entras na Elite e o que passa a acontecer é que quem quer entrar no clube dos ricos, novamente, passa a ter estímulos perversos para exagerar os seus… Sim, para tentar dar o máximo, arriscar mais. Arriscar mais porque não tem nada a perder. E, ao mesmo tempo, deixas de ter um level playing field, não é?
José Maria Pimentel
Deixas de ter uma concorrência justa porque é quase como se tivesse uma oligarquia, não é? Exatamente.
Nuno Barbosa Morais
Aliás, eu ia falar nisso porque aqui há dois aspectos muito interessantes. O primeiro é que tu podes argumentar que há alguma correlação entre o mérito, a qualidade científica dos cientistas e o sucesso que alcançam a este nível. E há, obviamente, mas não é perfeita. E há estudos que mostram que, em candidaturas a financiamento por parte, digamos, de cientistas, quando se faz a sua seriação com base na qualidade que foi atribuída pelos revisores, mais ou menos no terço mais bem classificado, não há grande associação entre a seriação e a produtividade futura. O que é que isto quer dizer? Quer dizer que há um grupo de cientistas muito fortes, cuja qualidade não é disto nível, e agora imaginarmos… Não consegues prever, por aí sim, muito bem. Não consegues prever com base nessa seriação. Imagina um cenário em que 30% dos candidatos são realmente muito sólidos, mas só há dinheiro para 15%. O que se mostra é que é extremamente injusto e mais valia tirar à sorte quem, do terço melhor, recebe financiamento porque o que acontece é que esta percepção de que, mesmo entre os melhores, há uma seriação de mérito, novamente incita o cientista, quando prepara a candidatura, a trabalhar todos os aspectos que acham que, para lá da qualidade científica e da robustez do método, podem criar nos revisores uma percepção para ser selecionado. Portanto, novamente um estímulo a exagerar o impacto, etc. Voltando a esta questão, este efeito de Mateus dos Ricos ficarem mais ricos, isto foi cunhado pelo sociólogo Robert Martin, mas ele tem um bocado associado um viés, que aliás foi bem descrito pelo Melvin Lerner, que era o pai da psicologia da justiça, de nós sermos muito influenciados pelos sinais exteriores de sucesso. Nós avaliarmos o mérito relativo, neste caso dos cientistas, pelos sinais exteriores de sucesso prévio que têm. Usando essa heurística, no fundo. Usando essa heurística, exatamente. E isto cria o tal efeito de oligarquia de dinastia em ciência, que é, se eu conseguir fazer o doutoramento com um professor famoso de Harvard, provavelmente consigo publicar na Nature e quando for concorrer ao emprego seguinte, vou artilhado com sinais exteriores de que pretenso ao clube dos ricos e, portanto, vou ser... Dinastia é um melhor termo do que... É, aliás, há um termo que eu ainda gosto mais que é pedigree. Pedigree, sim. Porque se tu fores a uma conferência e fizeres uma sondagem informal a investigadores a transitar para a independência e lhes perguntares qual é que eles acham que é o fator que mais contribui para o sucesso nesse processo, eles dizem sempre a palavra pedigree. E eu posso dizer pessoalmente que beneficiem muito do pedigree das pessoas com quem trabalhei em determinadas fases da carreira. E isto é bastante perverso. Aliás, o outro exemplo clássico é a infalibilidade dos prémios Nobel, não é? O endeusamento de quem recebe o prémio Nobel. E, na minha ótica, a vantagem, ou seja, o mérito do prémio Nobel é chamar a atenção para a descoberta. Mas as pessoas concentram-se muito na pessoa. E isto é normal porque nós tendemos sempre a procurar uma pessoa que simbolize qualquer coisa, mas depois acabamos por lhe atribuir uma autoridade exagerada. No exemplo da pandemia tivemos o caso do virologo Luc Montagnier, que faleceu recentemente, não é? Que recebeu o Nobel por causa do vírus do HIV, mas que fez uma série de afirmações durante a pandemia que não tinham qualquer suporte científico. Mas, por ser um Nobel ainda por cima em virologia, foi considerado como uma autoridade e foi muito… as suas opiniões foram muito usadas, até por, vamos supor, por antivaxxers, como quase dando um selo de validade científica, porque até aquele Nobel diz. Isto é normal porque os cientistas são humanos, alguns são vaidosos e, para além disso, obviamente que se tu começas a ser mais mediatizado, começas a ter mais prémios, mais reconhecimento, passas a ser visto como uma autoridade e enviesas a percepção que as pessoas têm de ti. Uma das preocupações, como formador de jovens cientistas que eu tenho, é quando assistimos a um seminário por alguém já com grande prestígio na área, é chamar a atenção para os meus alunos de um espírito crítico em relação ao escrutínio rigoroso do que vocês estão a ouvir no seminário, não deve baixar porque alguém é mais famoso. Recentemente tivemos no Iamiam um seminário de alguém já com uma remotação forte na área que arrancou o seminário, ao segundo ou terceiro slide, tinha uma análise completamente ilegítima de dados, por negligência, não por má fé, mas que eram aqueles resultados falsos eram a base de uma história incrível. Ou seja, ele construiu a história toda por cima disso. Construiu uma história fantástica e no final, sobretudo, os cientistas mais jovens que idolatravam um pouco aquela pessoa, estavam entusiasmadíssimos com a história e depois eu comecei a fazer-lhes perguntas sobre aquele slide e rapidamente o castelo de cartas ruiu. Tudo isto que eu estou a dizer é muito difícil de concretizar, não é? Nós estamos sujeitos a viéses, mas este efeito de atribuirmos mérito com base nos sinais exteriores de sucesso e não numa avaliação criteriosa das valências é um efeito que também está presente em ciência.
José Maria Pimentel
Sim, sim. No fundo há aqui um problema que permeia tudo isto que é um problema de, é um desafio de informação e de transmissão da informação, não é? Isso está presente na revisão pelos pares, não é? No fundo é uma maneira de perceber se aquela informação está correta ou não está correta, está presente na expressão para publicar e publicar várias vezes e publicar coisas que deem mais nas vistas, não é? E tudo isto também está presente neste caso, por exemplo, de essa heurística que nós usamos. Usamos-la porque ela é útil, não é? É muito mais rápido de tu pensares "Ok, este tipo, eu conheço, eu sei que ele é um bom cientista, vou ler o que ele escreveu" do que teres que ler de fio a pavio determinado artigo para perceber se ela é válida ou não é. Tu não tens tempo a ler tantos artigos por dia, não é? Não, não, e é só problema. Agora, na ciência moderna isso depois tem uma série de problemas, não é? Porque rapidamente, ou seja, tens que arranjar métodos que permitam combinar da melhor forma a incerteza que existe sempre na qualidade da informação, mas garantindo que pelo menos minimizas os maiores estragos, não é? Exatamente. É isso. Olha, é um bom ponto para nos encaminharmos para o fim da conversa que já vai longa. Eu não sei se tens mais alguma sugestão de melhorias do sistema, não é? No fundo já falámos aqui, enfim, parte delas são quase uma questão de mentalidade, não é? E de remoção de alguns incentivos perversos do sistema. Há outro aspecto que tu falaste, que eu acho que é de tal vez dos mais importantes. E que acho que já tem feito o seu caminho de publicar também os resultados negativos. Ou seja, não só os resultados estatisticamente significantes, mas também os negativos. Depois há também até, eu não sei se isso já é verdade em todo lado, mas aquela obrigatoriedade de registar experiências. Exatamente. De maneira a que depois não possas ir só publicar de novo aqueles que foram estatisticamente significantes, mas mesmo que não publiques os resultados não estatisticamente significantes, há uma espécie de repositório oficial das experiências que permite ir perceber o que é que...
Nuno Barbosa Morais
Mas eu ia até argumentaria que não só deves fazer sempre o pré-registo do que vais fazer, mas se trabalhas com o dinheiro ou as amostras de outros, deves publicar o que foi feito qualquer que seja o resultado. Claro, sim, sim, sim. Pronto, ou seja, deve haver essa obrigatoriedade, é uma obrigação moral, mas deve ser formalizada, de tudo o que vais fazer com dinheiro ou material biológico de terceiros... Deve ser sempre publicado. Deve ser sempre publicado, mesmo que corra mal.
José Maria Pimentel
Claro, o pré-registo no fundo é uma vávula de segurança para quem não fizer isso, não é? Exatamente, é mesmo isso. É isso, é isso. Tens mais alguma sugestão que não tenhamos falado?
Nuno Barbosa Morais
Sim, não, acho que podemos só rapidamente ir às principais fontes. Na parte das publicações, para além de permitirmos a publicação dos chamados resultados negativos, uma parte da solução que está a ser estudada é que a revisão por pares seja feita à montante da escolha da revista para a qual vai o artigo. Ou seja, neste momento já estes repositórios dos chamados preprints, que é os rascunhos do artigo, ainda antes de serem revistos por pares, já são tornados públicos e haver eventualmente, já existe, eu vou dar um exemplo, chama Review Commons, que é financiada por algumas agências financiadoras, que é uma agência, não é uma agência porque não é comercial, mas é uma entidade que centraliza a revisão de artigos, eu já revi artigos para a Review Commons, sem saber para que revista vai o artigo, porque a ideia aqui é que tu revejas os artigos apenas e só com base na sua qualidade científica e a qualidade científica não depende do resultado, depende da robustez. É a significância, não é? Não depende de como bem está calculada. Significância não no sentido estatístico só, porque a questão, a minha ideia é que a qualidade científica tu vês, sobretudo no desenho experimental. Claro, claro, ou seja, tudo o que alimenta a significância e a maneira como ela está calculada.
José Maria Pimentel
Mas não o impacto, o impacto entra a seguir, não é?
Nuno Barbosa Morais
O impacto entra a seguir e não deve ser o revisor que toma decisões a esse nível. E portanto, já há quem proponha, e estou a fazer experiências nesse sentido, por exemplo isto, ou seja, tu tornares o teu trabalho público quando vai para a revisão por paros e depois ides publicando essas revisões e ides atualizando o artigo e quando tu, autor, com o beneplácito dos revisores, achas que está pronto, depois, no fundo, haver um leilão entre revistas para quem é que fica com os artigos que considerarem maior impacto. Mas, pelo menos, não eliminas completamente estas questões de prestígio, mas já matas, pelo menos, grande parte do viés no processo de revisão. A Maria falou-te do outro exemplo que é, eventualmente, agências de financiamento que estão a decidir não permitir a publicação de trabalhos que são financiados por essas agências em editoras com fins lucrativos.
José Maria Pimentel
Ela falou disso, mas essa é outra questão, não é? Essa é uma questão mais moral, se quisermos. Não afeta necessariamente a qualidade da...
Nuno Barbosa Morais
Não afeta porque promove o exagero do impacto, ou seja, revistas como a Nature só publicam coisas que considerem ser pedradas no charco. Portanto, que tu quiseres esse selo de prestígio é um contributo fortíssimo para o exagero na forma como tu escreves um artigo.
José Maria Pimentel
Eu percebo, mas a Nature publica ou a Science ou a Cell, foram especialmente afetadas por estes casos de má ciência?
Nuno Barbosa Morais
Sim, sim, sim, bastante. Eu dei o exemplo das células staminais. Vamos lá ver. Ah, isso foi publicado lá, ok. Isso foi publicado na Nature.
José Maria Pimentel
Porque a partida também tem uma reputação em jogo, não é?
Nuno Barbosa Morais
Sim, mas a questão é exatamente essa, é que esta ideia da descoberta bombástica que vai evolucionar, o que estas revistas procuram fazer é, vamos garantir que este artigo é revisto pelos principais especialistas na área. E a partir do momento em que três ou quatro especialistas na área dizem "o artigo está bom", os editores da revista não têm conhecimento científico suficiente para duvidar. Pronto, e isto aconteceu, eu creio que discutiste isto com a Luísa Lopes, o caso da hipótese da ação da beta-amiloide na doença de Alzheimer. O artigo original também é publicado, é um artigo que estabelece uma relação funcional entre a acumulação de placas beta-amiloide nos cérebros das pessoas com doença de Alzheimer e a própria doença, em termos funcionais, e que se demonstrou muitos anos depois e muito investimento depois, que era uma fraude, mas que não só na altura passou a revisão por pares, como foi muito, muito citado nos anos subseqüentes, porque toda a comunidade gostava daquela hipótese, porque parecia uma hipótese plausível. É verdade que eu diria que a hipótese era muito plausível. Neste momento não há evidência suficiente para que seja válida, mas era plausível. Mas o que é demonstrável pelo grau de exigência destas revistas é que, efetivamente, provavelmente, há menos falsos positivos nestas revistas do que noutras em que o processo é menos exigente. Mas, ao mesmo tempo, há mais exagero...
José Maria Pimentel
Quando surgem os falsos positivos, são mais graves.
Nuno Barbosa Morais
Não, e mesmo os verdadeiros positivos parecem ser mais positivos do que o que são, pondo a coisa nesses termos. Em relação a outras coisas que a comunidade pode fazer, eu poderia dizer que há uma parte que tem a ver também com as agências de financiamento. Já discutimos a ideia do que se chama aleatorização focalizada, que é, no fundo, decidir que entre os melhores se sorteia o financiamento. Faz uma primeira triagem. Faz uma primeira triagem e vai. E, eventualmente, também tornar, que me parece uma das coisas mais perversas na forma como apoiamos a ciência neste momento, há um foco muito grande no indivíduo, o que leva à tal hiperspecialização e, portanto, procurarmos... E a cedar nas vistas, não é? Sim, a cedar nas vistas, procurarmos tornar o financiamento mais coletivo. Da parte dos empregadores, por exemplo, as universidades, os institutos de investigação, dar mais peso à boa cidadania científica de quem é recrutado, nomeadamente, procurar perceber qual é a solidez do trabalho feito, quanto investimento e tempo é que a pessoa dedica a colaborar, por exemplo, e, num certo sentido, a servir a comunidade. E, aqui, sem querer ser advogado em causa própria, também promover mais pessoas com uma formação mais transversal ou interdisciplinar, que muitas vezes não têm uma especialidade tão bem definida ou não são famosos por um tema sexy muito específico, mas que permitem fazer todas estas pontes. E, talvez, já a pensar um bocadinho no futuro, há dois aspectos que eu acho que vão ser muito importantes aqui. O primeiro são também os algoritmos de inteligência artificial a apoiar o processo de revisão. Já há algoritmos que automatizam a verificação estatística dos artigos. Há um que se chama StatCheck, mas há um que eu gosto particularmente, que se chama Grim, que está associado à granularidade das médias. O que é que eu quero dizer com isto? Se tu fizeres a média de quatro números inteiros, ela vai ser sempre múltipla de 0.25, de um quarto. Ora, este algoritmo detecta médias inconsistentes com esta granularidade. E, portanto, já há vários estudos… É um algoritmo de metaciência também. É um algoritmo de metaciência. Um outro exemplo, agora muito presente, principalmente para cientistas nacionais na área biomédica, a Fundação Lacaixa, que é um dos nossos mais importantes financiadores, no último concurso para financiamento de projetos em investigação biomédica, implementou esta fórmula de que há um algoritmo, um pouco à moda do ChatCPT, baseado em estrutura de linguagem natural, mas específica de linguagem biomédica. Aliás, as bases se chamam… acho que se chamam BioBert e BioElectra. Aqui não é importante. Mas o que é que este algoritmo faz? Vai às caixas de texto das candidaturas. Isto é muito importante. Ele vai ignorando o currículo dos candidatos e vai classificá-los. E a Lacaixa vai… o que vai fazer é dizer que o pior terço das candidaturas ainda vão passar por um crivo humano, mas em princípio não são elegíveis. E é o algoritmo que faz essa primeira triagem. E como é que o algoritmo foi treinado? O algoritmo foi treinado com as classificações atribuídas nos anos anteriores. Ou melhor, nos anos anteriores, exceto o ano passado. O ano passado se distorce e, de facto, a classificação atribuída pelo algoritmo batia muito certo com as dos revisores humanos. Portanto, pode substituí-los, embora partilhe os mesmos vieses,
José Maria Pimentel
caso eles existam. Exatamente. Exatamente.
Nuno Barbosa Morais
É isso que eu queria dizer. Ou seja, estes algoritmos vão herdar uma parte dos vieses humanos, mas, por exemplo, este modelo da Lacaixa há, pelo menos, a garantia de que o algoritmo não está enviesado pela leitura do currículo. Agora, tu podes sempre argumentar que as pessoas mais habilidosas e com melhores currículos também já desenvolveram, ainda que não conscientemente, formas de escrever que também as favorecem, certamente. E, aliás, o que nos leva também à possibilidade de começarmos a fazer isto passar para o domínio da revisão por pares de artigos científicos. Neste momento fala-se muito do chat GPT para gerar texto, ou seja, estes algoritmos que já permitem escrever coisas que são bastante eloquentes, aliás, que têm o perigo de tornar mentiras convincentes, muitas vezes. Mas nós podemos começar a pensar que, tal como a Lacaixa fez para o financiamento, as revistas começam a apostar nestes algoritmos que dissecam a linguagem e, digamos, a transformam numa estrutura de conceitos e depois procuram inconsistências nesta estrutura.
José Maria Pimentel
E, provavelmente, não sei se estou a ver isto bem, mas é provável que isso também crie um efeito de segunda ordem interessante de criar uma pressão maior para os postulos terem mais informação sobre a maneira como foram construídas as experiências e uma série de informação que é necessária.
Nuno Barbosa Morais
Aliás, o que vai ser curioso, pode haver depois um efeito perverso que é depois nós desenvolvermos algoritmos para enganar o algoritmo de coisas, mas o que vai ser curioso aqui é que... - Uma corrida às armas. Exatamente, arms race, uma corrida às armas. Mas o que vai ser curioso aqui é que, e poderá ser muito produtivo, é que mesmo o cientista corra o mesmo algoritmo antes de submeter o artigo e sabe automaticamente ou quase automaticamente, aliás, há um antigo colega meu, o Florian Markovits, que advoga que a melhor forma de resolvermos isto é convencermos os cientistas mais ambiciosos, egoístas e, digamos, com motivações mais perversas que isto também é bom para eles, porque lhes poupa tempo, porque lhes melhora a reputação, etc. Portanto, este é um aspecto muito importante, e só como nota colateral, que mesmo quando a comunidade está ciente que há um problema, nós temos que perceber que quem tem poder de decisão, normalmente, são colegas que beneficiaram, chegaram a cargos mais elevados, que beneficiaram do sistema, e embora sejam conscientes do problema, instintivamente atribuem-nos a outros e não têm uma perceção... E têm incentivos para não querer mudar o status quo. E têm os incentivos, mas nem é só por aí, provavelmente não têm sensibilidade para a natureza do problema. Porque não têm essa experiência. Porque não têm essa experiência. Só para fechar, a resposta à tua pergunta, em relação a coisas que podemos fazer e pensando agora no futuro, portanto, para além da questão dos algoritmos, tem a ver com algo em que a Maria Mota também tocou quando conversou contigo, que é uma espécie de mudança geracional nas motivações e nos interesses dos cientistas. Há estudos, estes são americanos, portanto, eu não quero extrapolar para Portugal, que sugerem que aquilo que são agora os jovens académicos, eu diria que da idade dos nossos estudantes de doutramento, vêm com uma pior saúde mental, no sentido em que vêm mais pressionados para obter resultados, com mais incerteza em relação ao futuro, mas também muito mais cientes dos problemas de saúde mental e atribuir muito menos estigma a esta questão. E porquê é que eu estou a falar na questão da saúde mental dos jovens cientistas? Porque, obviamente, eles vão ser muito mais reativos à perceção de injustiças em carreiras científicas, na atribuição de financiamento, etc. E, portanto, eu aqui vejo duas formas de utilizarmos esta alerta maior nas novas gerações de cientistas e o facto deles já não tolerarem injustiças e serem mais contestatários a coisas que não estão bem, e espero que continuem ativos em questões de, digamos, do clima, etc. Eu acho que há aqui duas formas de ajudar. Uma que tu partilhas muito comigo, que é instituir formação em pensamento crítico, ou seja, isto é algo que é, claro, neste momento a maioria dos cientistas nunca estudou a filosofia da ciência, nunca discutiu verdadeiramente estes viesses cognitivos e o impacto que tem no clima, como abordam estatisticamente os problemas, etc. Portanto, eu advogo que devemos começar desde cedo, portanto, formar os jovens cientistas em pensamento crítico. E depois é haver um segundo aspecto mais indireto, é uma vez feita esta formação e aproveitando esta maior preocupação deles com fazerem um trabalho de que gostem, sejam felizes, etc., que alguns cientistas sénios que estejam mais preocupados com isso, começam a fazer uma espécie de statement, ou seja, que determinados laboratórios digam "nós não vamos publicar". Vamos dar um exemplo. Vamos dar um exemplo e não vamos publicar em revistas de editoras com fins lucrativos, mas o que prometemos é rigor, boa formação em espírito crítico, liberdade académica, etc. E o que é curioso é que se tu for às páginas web dos laboratórios de investigação, incluindo a do meu laboratório, que ainda não tem lá nada disso, nenhuma tem este tipo de compromisso. E o que acontece é que se nós tornarmos explícito este tipo de compromisso, o que vai acontecer é que no processo de recrutamento dos jovens cientistas vamos estar a fazer um filtro, no sentido em que vamos só ter connosco aqueles que querem realmente fazer a ciência por bons motivos, mas vamos também dar uma ferramenta a todos para, por exemplo, questionar os cientistas mais sénios de porquê que as coisas são feitas como são. Eu converso muito, desde há muito tempo, ainda quando estava fora que vou conversando com estudantes de doutoramento, por exemplo, e quando vejo alguns insatisfeitos perguntados porquê, e muitas vezes a motivação, ou o motivo para a insatisfação é esta sensação de que quase um bocado um síndrome do impostor associado a sentir que o que estão a fazer não é muito sólido. E normalmente eu pergunto assim, "Então, e já questionaste o teu orientador sobre isso?" E eles dizem-me, "Sim, sim, mas ele respondeu-me que são as leis do jogo, não é? E que tem que ser assim." Ora, se de antemão souberem que não, e atenção, há colegas meus sénios que acham que os melhores cientistas também são aqueles que jogam melhor o jogo, ou que acham que para ser bom cientista tem que ser hipercompetitivo de atitude, se nós conseguirmos, tivermos exemplos de que não é necessariamente assim, eu acho que vamos começar a ter os... A conseguir reverter. A conseguir reverter e a ter os melhores cientistas a trabalhar mais de acordo, digamos que os princípios deontológicos do que deve ser a atividade de um cientista.
José Maria Pimentel
Boa, Nuno, grande conversa. É verdade. Olha, sei que tens dois livros para recomendar. Sim, sim, aliás,
Nuno Barbosa Morais
teria muitos, não é? Mas o primeiro, e esta é a minha recomendação mais forte, chama-se "The Drunkard's Walk", do Leonardo Melodinao. Infelizmente, acho que há uma tradução para o português do Brasil, "O Caminhar do Bêbado", creio, mas que não é fácil arranjar, portanto é muito mais fácil e mais barato arranjar em inglês. E o título deste livro é uma analogia com o "Random Walk", o chamado "Movimento Brownian", que é um conceito da física estatística. É uma distribuição aleatória, não é? Sim, é que nós, no fundo, esta é a ideia do movimento de uma partícula, por exemplo, num gás a chocar com outras partículas, é que a ideia é que nós não conseguimos prever o comportamento de cada partícula individualmente, mas conseguimos modelar estatisticamente o comportamento do coletivo, e daí que vêm as equações e etc. Mas aqui, a ideia do livro é mostrar, no fundo, leva-nos pela história da teoria das probabilidades e da estatística, sempre em paralelo com os nossos viesses cognitivos e em como nós tendemos a ver ordem e padrões em dados aleatórios. É aquilo que tu falavas há bocadinho. Portanto, este livro é acessível em termos conceptuais a toda a gente, portanto não precisam de formação matemática nem nenhuma. E para aqueles que não souberem inglês, apesar de tudo, há um livro bastante citado no The Drunkard's Walk que está traduzido em português, que é o Pensar Depressa Devagar do Daniel Kahneman sobre os viesses cognitivos. O segundo livro que eu recomendo, que é... - De toda a maneira como o meteste aí,
José Maria Pimentel
o segundo livro dentro do primeiro. - Dentro do primeiro, mas
Nuno Barbosa Morais
com a culpa de estar a recomendar-vos em inglês. - Não há limites. - Não, não, não. E aqui a culpa manifesta-se também na minha segunda recomendação, que é para quem tiver interesse em metaciência e nas causas deste problema da reportabilidade, chamado Science Fiction do Stuart Ritchie. Também não está traduzido em português, como eu disse. E em que, no fundo, é feita uma viagem pelas causas dos problemas de reportabilidade. Aliás, o Stuart Ritchie divide-as em quatro domínios. A fraude, a negligência, o hype, portanto o exagero e o que é para mim mais importante, que é o viés. No fundo, são estes viés que estivemos a falar. - Olha, e já agora
José Maria Pimentel
vou recomendar-me também desta vez, que nós já falámos, que é um livro que tem várias ligações com esses e com muito daquilo que nós falámos aqui. Tem um título provocador, chama-se "Calling Bullshit". O subtítulo é, enfim, agora vou traduzir, é "Arte do Ceticismo no Mundo Dominado por Dados". É de dois professores da Universidade de Washington, é o Carl Bergstrom e o Javin West. E, na verdade, aquilo teve origem numa cadeira que eles davam na faculdade, e que aliás está no YouTube, embora o livro seja melhor do que a cadeira, porque está mais bem tratado, ou seja, aquilo depois foi burilado. E é um típico que toca, enfim, toca várias coisas que nós falámos aqui hoje. Da Bullshit num sentido mais abrangente de fake news até à fraude, ou pelo menos à negligência e aos vieses que entram no domínio da ciência. Olha, Nuno, foi, bem, como eu esperava, uma conversa bem longa e, sobretudo, enfim, onde tocamos numa série de coisas e mesmo assim ficaram coisas para falar. - Para falar, é verdade. - Este tema prestou-se a isso. Obrigado. - Ah, muito obrigado eu. Este episódio foi editado por Hugo Oliveira. Contribua para a continuidade e crescimento deste projeto no site 45grauspodcast.com. Selecione a opção "Apoiar" para ver como contribuir, diretamente ou através do Patreon, bem como os benefícios associados a cada modalidade.