#140 Nuno Barbosa Morais - Vieses cognitivos, incentivos perversos, Big data, e outros desafios...
Click on a part of the transcription, to jump to its video, and get an anchor to it in the address bar
José Maria Pimentel
Olá, o meu nome é José Maria Pimentel e este é o 45 Graus.
Muito obrigado aos novos mecenas do podcast, no último mês, na verdade, porque me esqueci
de agradecer no último episódio.
São eles Miguel M.
Cabral, Fernando Pereira, Nuno Costa, André Soares, Elsa Caetano, agradeço também à
Sandra Ferreira e à Ilsa Barbosa, ao Rui Caetano Garcia, à Márcia Serra, ao António
Nascimento, à Inês Águas e obrigado também ao Pedro Lemos Silva, à Margarida Pontes,
à Rita Noronha e à Cristiana Campos.
E com isto vamos ao episódio de hoje.
Este episódio tem uma origem peculiar.
No verão passado estive no Instituto de Medicina Molecular da Universidade de Lisboa a gravar
o episódio com a Luísa Lopes, que foi como se lembram sobre neurobiologia.
No final da gravação a Luísa convidou-me, simpaticamente, para uma espécie de convívio
de fim de tarde que eles ali fazem regularmente com todos os investigadores e que, por acaso,
calhava naquele dia.
Foi um fim de tarde inesperado e muito bem passado e descobri por lá vários ouvintes
do 45°.
Uma dessas pessoas foi o convidado deste episódio, Nuno Barbosa Moraes, que coordena no IMM um
laboratório dedicado à chamada Biologia Computacional.
O Nuno é licenciado em Engenharia Física Tecnológica pelo Técnico e adoutorado em
Ciências Biomédicas pela Faculdade de Medicina de Lisboa.
Leciona também, na mesma faculdade, cursos de Biologia Computacional a vários mestrados.
Desde 2015, o Nuno lidera no IMM o Laboratório de Transcritómica de Doença.
Este é um tipo de laboratório muito diferente dos laboratórios normais nesta área.
É aquilo a que no jargão desta área se chama um dry lab, um laboratório seco.
Ou seja, isto porque a equipa do Nuno não trabalha com tubos de ensaio ou microscópios,
aquilo a que nos habituamos a associar ao trabalho de um cientista.
Utilizam sim dados e informação gerada nos laboratórios tradicionais, que se chamam,
se adivinharam, wet labs, e processam esses dados através de programas informáticos
que permitem ajudar a tirar conclusões.
O Nuno é por isso um, entre aspas, "homem dos números" a trabalhar em Biologia.
E isso dá-lhe uma perspectiva interdisciplinar e muito singular sobre os desafios de fazer
ciência e que, por vezes, dão lugar a má ciência.
Sobretudo hoje, em que a ciência é cada vez mais competitiva e quem a faz utiliza
cada vez mais o chamado big data e programas informáticos complexos.
Por isso, naquele fim de tarde, mal começámos a conversar, percebi rapidamente que a minha
defesa da necessidade de pensamento crítico e dos méritos da interdisciplinaridade, que
vocês conhecem bem quando estão vindos do 45°, estava muito alinhada com as preocupações
que o Nuno foi desenvolvendo a partir da experiência dele enquanto cientista de dados no meio
de biólogos e das ideias que ele foi formando em relação a estes desafios.
E assim nasceu este episódio.
Na conversa que vão ouvir, o Nuno identifica uma série de desafios/obstáculos à boa
consciência que eu diria que se podem dividir em dois tipos.
Os de sempre e aqueles que se foram tornando mais agudos nas últimas décadas devido a
algumas mudanças quer técnicas, quer institucionais, que afetam o modo como hoje se faz ciência.
O primeiro tipo de desafios, os de sempre, tem a ver com a maior dificuldade da ciência
enquanto atividade, que é conseguir compreender o mundo, identificar leis da natureza, tendo
acesso apenas a dados sempre parcelares e imperfeitos e contando apenas com a mente
dos cientistas, que é uma mente humana e por isso cheia de limitações e vieses.
Para contrariar essas limitações cognitivas e também os nossos defeitos morais, criou-se
ao longo do tempo uma arquitetura institucional com uma série de válvulas de segurança para
garantir o rigor científico.
Por exemplo, um trabalho científico só é publicado depois de ser revisto por outros
cientistas e a ciência é feita de forma aberta, de modo a que um cientista esteja
sempre sujeito a que as suas conclusões sejam invalidadas por outros investigadores.
E para conseguir decidir entre o que conta e o que não conta, o que é válido ou não
é válido como descoberta científica, a partir dos tais dados limitados, foi preciso
criar um método, aceito por todos, que pudesse decidir em relação à significância das
conclusões.
Instituíram-se então testes de inferência estatística, os chamados testes de hipóteses,
o mais conhecido dos quais é o célebre p-value, valor p, de que falamos bastante na conversa.
Só que estes testes são apenas uma via indireta de inferir conclusões.
Como não é possível nunca conseguir ter a certeza absoluta em relação à nossa hipótese
para explicar determinado fenómeno, o máximo que estes testes fazem é rejeitar a hipótese
de não existir naqueles dados fenómeno nenhum.
E depois há outro problema, esse sim mais grave.
É que uma vez estabelecendo-se um referencial para determinar o que conta e o que não conta
como descoberta científica, criam-se, acho que já adivinharam, incentivos para que os
cientistas façam tudo por tudo, consciente ou inconscientemente, para que os seus resultados
fiquem dentro desse referencial.
Por causa destes métodos estatísticos imperfeitos e das limitações da nossa mente, a ciência
foi sempre uma atividade muito complexa.
Mas nas últimas décadas, algumas mudanças vieram a tornar estes obstáculos ainda mais
pronunciados.
Por um lado, o sistema de publicação de artigos científicos tem-se vindo a tornar
cada vez mais competitivo, gerando incentivos para publicar resultados o mais vistosos possível,
mesmo que para isso seja necessário abdicar do rigor.
Por outro lado, a ciência, em particular a área do convidado, as ciências biomédicas,
tornou-se cada vez mais complexa e informatizada devido à ascensão do chamado Big Data e
da utilização de programas bioinformáticos.
E isto criou desafios adicionais a quem utiliza estas ferramentas, sem, em muitos casos, as
compreender completamente.
Estes obstáculos e outros que foram surgindo na conversa provocaram aquilo a que se tem
chamado a "crise da replicação da ciência", em que várias conclusões aparentemente sólidas,
sobretudo nas áreas da biomedicina e da psicologia, têm sido invalidadas por estudos posteriores.
Esta crise tem feito correr muita tinta nos últimos anos, com já vários livros publicados
sobre o assunto.
E foi precisamente por aí que começámos a nossa conversa, na qual percorremos as causas
e consequências destes desafios e obstáculos.
No final, pedi ao Nuno para apontar soluções para resolver estes desafios, os antigos e,
sobretudo, os novos.
Como vão ver, ele tem muitas ideias e interessantes em relação a este assunto.
E agora deixo-vos com esta bela conversa com Nuno Barbosa Moraes.
Nuno, bem-vindo ao 45 Graus.
Obrigado, José Maria.
A ciência, em certo sentido, bastante argumentável que nunca se fez tanta ciência e nunca se
fez, em grande medida, tão boa ciência, no sentido de, com métodos tão complexos
e explorar fronteiras do conhecimento tão avançadas.
Mas, por outro lado, existem hoje vários obstáculos à ciência.
Alguns deles já vêm de trás, outros são mais recentes, que são obstáculos à boa
ciência, se quisermos.
Alguns deles são obstáculos à fazer boa ciência, alguns são institucionais, outros
são cognitivos que sempre existiram mas que hoje em dia se tornaram mais complicados e
outros que têm a ver com novos métodos e com questões mais específicas de cada área.
Mas que são coisas que implicam que, ao contrário do que seria de esperar, nem sempre se esteja
a fazer boa ciência.
E, se calhar, o sintoma mais óbvio disso que toda a gente já ouviu falar é o caso da
chamada crise da replicação.
Tanto do lado da biologia e da biomédica como do lado da psicologia se começou a perceber
que havia uma série de experiências que tinham sido feitas.
Aliás, e não por acaso, muitas delas com conclusões surpreendentes e que, de repente,
ao tentar replicar-se, não se conseguiu obter os mesmos resultados.
Sendo que a replicação é fundamental para a ciência.
A replicação é que está na base da ciência, não é, ao contrário do que muitas vezes
parecem ali os jornais, não é uma descoberta que faz a ciência, é a validação dessa
descoberta ou não falsificação dessa descoberta que faz a ciência.
Portanto, isto é um desafio grande.
Qual é a tua explicação para isto?
Ou seja, para este problema mais geral e, sobretudo, se calhar, focando na questão
da crise da replicação?
Nuno Barbosa Morais
A minha explicação é que a ciência é feita por humanos e, portanto, pregando nos
vieses, ou seja, eu acho que mesmo os outros problemas que mencionaste, incluindo os institucionais,
são uma consequência de vieses cognitivos associados ao facto da ciência ser praticada,
digamos assim, por humanos.
Portanto, a ciência, definindo-a como esta empreitada coletiva de gerar e organizar,
estruturar novo conhecimento, assenta, em primeiro lugar, e como tu já mencionaste,
na ideia de hipóteses testáveis, portanto, da nossa capacidade para testarmos hipóteses
e observações que sejam reprodutíveis, portanto, para testarmos essas hipóteses,
recolhermos informação, se quiseres adquirir uns dados que nos permitam garantir que o
que estamos a ver é reprodutível e vai acontecer outra vez quando fizermos a nova experiência.
Nuno Barbosa Morais
Normalmente, a maior parte das hipóteses também são motivadas por observações prévias,
ou seja, tu olhas para a natureza, observas algo que te surpreende, tens uma ideia do
que pode explicar aquela observação, tens uma hipótese e vais fazer experiências que
permitam testar essa hipótese e recolher informação suficiente para esse teste.
O que é que acontece?
E aqui, voltando à ideia de que a ciência é feita por humanos, o que motiva os cientistas
para trabalhar em ciência é bastante diverso, mas tu encontras uma motivação muito comum
nos cientistas que é a vontade de fazer uma grande descoberta ou de ter uma ideia sobre
o que pode estar a acontecer na natureza e validar essa ideia, confirmar essa ideia experimentalmente.
Obviamente que isso é potencialmente uma fonte de viés, porque se tu estás muito
entusiasmado com a tua hipótese, vais ter tendência a, sempre que fazes uma observação
que é compatível para a tua hipótese, a achar que estás a provar a tua hipótese.
Obviamente que os cientistas têm noção disso e também têm, em primeiro lugar, noção
que a ciência é uma empreitada coletiva, é uma construção social a forma de fazer
ciência e, portanto, há algumas normas, ou se quiseres, alguns princípios deontológicos
que garantem que os cientistas se apoiam uns aos outros no sentido de escrutinarem a ciência
que todos fazemos para evitar precisamente que caiamos nesses viés cognitivos.
E um dos principais princípios deontológicos é o do ceticismo organizado, que é a revisão
por partes.
E começamos por aí.
Portanto, esse é um mecanismo, se quiseres, social de controlo de qualidade da ciência.
Mas há, sobretudo no método científico, alguns princípios lógicos importantes.
Um muito importante em relação à ideia de termos hipóteses destáveis é bem enunciado
pelo Karl Popper, que é a ideia das hipóteses falsificáveis.
Ou seja, nós nunca provamos a nossa hipótese, nós vamos nos aproximando da prova da nossa
hipótese, recolhendo informação suficiente para descartar, rejeitar hipóteses alternativas
à nossa.
Portanto, o processo, o método científico, passa, sobretudo, por testar hipóteses falsificáveis.
E passando ao segundo aspecto, que é o das observações reprodutivas, a ideia é que
se nós queremos testar a nossa hipótese, desenhamos uma experiência que permita recolher
informação ou observações de dados suficientes para descartar uma hipótese alternativa à
nossa ou várias hipóteses alternativas à nossa.
Agora, a pergunta e a questão que se coloca é quando é que temos observações suficientes,
dados suficientes para descartar uma hipótese contrária à nossa e o que é que é suficiente?
Pronto, a estatística, se quiseres, a história da teoria das probabilidades e da estatística
mostra que a construção destes alicerces conceptuais e informais, ou seja, da linguagem
estatística, foi feita na base, precisamente, de percebermos o que é que pode estar a acontecer
por acaso.
Portanto, foi, no fundo, procurarmos quantificar o acaso e isto, voltando à questão dos testes
no fundo, quando estamos a tentar recolher informação suficiente para rejeitar uma
hipótese contrária à nossa, se a hipótese contrária à nossa foi de "não está a
acontecer nada" ou "estas observações que me fizeram pensar nesta hipótese são
fruto do acaso", como é que eu testo isto?
Nuno Barbosa Morais
Exatamente, portanto, a ideia mesmo é essa, ou seja, se tu lançares o dado muitas vezes
e te parecer que o dado está enviasado, quanto é que é evidência suficiente para poderes
dizer que vais descartar a hipótese de que o dado não é enviasado, que o dado é legítimo?
E, aliás, é curioso porque embora a história da teoria das probabilidades, e isso começa
no tempo dos romanos e da antiga civilização chinesa, o grande impulso à estatística
vem mais ou menos do século XVI do Cardano, que precisamente se tornou um jogador isímio
e fez dinheiro a jogar porque começou a tentar estimar as probabilidades de determinados
resultados nos jogos que, embora fossem vistos como aleatórios e frutos da sorte e do azar,
ele sabia que havia determinadas jogadas que tinham mais probabilidades de sucesso, como
os jogadores de póquer sabem.
Não era completamente random.
Exatamente, não era completamente random.
No nosso caso o problema em biologia é que, até ao século XX, eu diria, ou até ao século
XIX, a biologia envolveu pouca quantificação e pouca estatística devido à sua complexidade,
portanto, os grandes avanços de biologia assentavam em conhecimento que era de alguma
forma descritivo e só no século XIX, com o Gregor Mendel e as experiências com as
ervilhas em Brno, é que se procurou...
Entrar a genética no fundo.
Entrar a genética, exatamente.
Portanto, se procura quantificar um pouco, digamos, da influência genética, no caso
era a cor das ervilhas, não é?
E podemos dizer que aí é que começa a genética populacional que já tem quantificação associada.
Mas, em particular, e isto é muito curioso, que o uso da estatística em biologia aparece
provavelmente com o estatístico mais influente da primeira metade do século XX, que era
um biostatístico, que era o Ronald Fisher, que é conhecido, nomeadamente, pela análise
de variância, pelo teste que tem o seu nome, e pelo valor P, ou P-value, que é precisamente
esse conceito de qual é a probabilidade que eu tenho de rejeitar a hipótese nula quando
ela é verdadeira, ou seja, qual é a probabilidade de eu enganar-me, de eu cometer um erro, aquilo
que se chama um falso positivo, ao rejeitar uma hipótese verdadeira, ou seja, no caso
é qual é a probabilidade de eu achar que a observação que eu estou a fazer não é
por acaso, quando ela é por acaso, ou qual é a probabilidade de aleatoriamente eu observar
resultados mais extremos do que o acaso.
Sim, sim, sim.
José Maria Pimentel
Ou seja, para dar um caso concreto, imagina, nutrição, estás a ver o efeito do Ifanépolis
Day keeps the doctor away, não é?
Exatamente.
E portanto, tens uma amostra com pessoas que comem uma maçã diariamente e outras que
não comem, não é?
E no fundo isso dá-te a probabilidade, e vamos admitir que as pessoas que comem uma
maçã diariamente de facto têm menos problemas de saúde, não é?
O p-value dá-te a probabilidade desse efeito que tu estás a identificar não ser o efeito
real mas ser fruto do acaso.
Do acaso.
Por acaso saiu assim aquela amostra.
Exatamente, é exatamente isso.
Portanto, quanto mais baixo for, melhor, e normalmente o limiar está nos 5%.
Sim, sim.
Nuno Barbosa Morais
O que é interessante é que o Fischer, que aliás trabalhava, eu disse que era biostatístico
porque ele trabalhava com dados de colheitas em Rothamsted, que é em norte de Londres,
era um instituto que ainda existe, agrónomo, passou várias décadas, eu diria que o grande
foco intelectual dele foi precisamente quando é que eu tenho evidência suficiente para
acreditar que isso não é por acaso.
A história mais emblemática e com a qual ele arranca provavelmente o livro mais famoso
dele que se chama "Desenho de Experiências", portanto, meados dos anos 30, em que ele dá
aos cientistas, aos investigadores, um manual de como desenhar experiências otimizadas
para fazer testes legítimos de hipóteses e a respectiva quantificação, e o primeiro
exemplo que ele dá nesse livro é a história da Muriel Bristol, que era uma colega dele,
bióloga de algas, que gostava muito de chá e primeiro afirmava que o leite devia ser
colocado no chá depois do chá estar na chávena e afirmava que conseguia distinguir uma chávena
de chá em que o leite tinha entrado primeiro ou entrado depois no chá.
E a história é engraçada porque o Fischer não acreditava que ela fosse capaz de distinguir
e desenhou uma experiência que permitisse testar isso e então combinaram que iam preparar
oito chávenas de chá, quatro em que o chá era colocado por cima do leite e quatro em
que o leite entrava no chá.
E a senhora realmente percebia do assunto porque acertou todos, portanto acertou os
oito.
E o motivo hoje sabe-se cientificamente, eu ia sugerir que o Nuno Malido incluísse a
explicação num dos próximos livros, sabe-se que as primeiras gotas de leite a entrar
no chá quente devido à hidrofobicidade da gordura e das proteínas que lá estão formam
os aglomerados e as proteínas desses aglomerados dentro de água quente desnaturam pela temperatura
o que dá até um sabor caramelizado ou bruxicado.
Isso não acontece quando o chá cai por cima do leite.
A questão é que depois de ver o sucesso da colega, ainda assim o Fischer questionou-se
se aquilo era fruto do acaso ou não e calculou as probabilidades dela acertar.
Por acaso, as probabilidades eram de 1 em 70, portanto 1,4%, ele ficou satisfeito, mas
mesmo assim em praticamente tudo o que fazia ele ficava a pensar se de facto estava a testar
bem a hipótese e portanto foi daí dessas reflexões dele e dessas quantificações
que se desenvolveu o conceito do Pivel.
E depois veio o limiar dos 5%.
Nuno Barbosa Morais
O que é que acontece aqui é que o Fischer diz também num destes livros de apoio ao
desenho experimental e às estatísticas de análise do resultado experimental, diz que
só considera dar relevância a observações quando a probabilidade de rejeitar a hipótese
do acaso for inferior a 5%, portanto quando este valor P for inferior a 5%.
Mas no mesmo dos livros ele diz "isto é totalmente arbitrário e o cientista é que
deve decidir qual o erro que está disposto a aceitar".
O que acontece em biologia é que há aqui dois fenómenos, que é, em primeiro lugar
os biólogos não se preocupam, ou seja, aqueles que não sabem muita estatística, que infelizmente
provavelmente é a maioria, não se concentra muito em interpretar o valor P e em comprometer-se
com uma tomada de decisão em relação ao que é que é um erro aceitável e aceita
este limiar totalmente arbitrário que já está nos livros há quase 100 anos de 5%,
portanto a probabilidade… É uma convenção no fundo.
É uma convenção, ou seja, aceitaram esta convenção…
Desculpa, mas também tem algumas vantagens, não é?
Nuno Barbosa Morais
Tens um standard… Tens, mas eu… parte do problema é precisamente
que o standard não é bom e eu já lá vou… É um standard muito laço, portanto, quando
tu perguntas às pessoas porque é que usam 0.05 e mesmo depois de lhes contares, de
lhes explicares que isto é arbitrário, portanto, probabilidade de se quiseres declamar um efeito
quando ele não é verdadeiro de 1 em 20, a resposta é, é conveniente usar um critério
bastante liberal porque nos permite ter mais resultados positivos, ainda que depois…
Não é um grande argumento.
Não sei se… Mas é esse o argumento, é, permite ver mais coisas potencialmente relevantes
e portanto dá mais margem de manobra para fazer avançar os estudos por cima de determinadas
hipóteses, ainda que a probabilidade dessas hipóteses serem verdadeiras seja um pouco
mais baixa ou o risco de estarmos a trabalhar em cima de uma falsificação mal feita ser
mais alto.
E há aqui uma outra questão importante que a maior parte dos cientistas das ciências
da vida têm aquilo que chamam uma mente descontínua no sentido em que gosta de dividir as entidades
em caixas e o mesmo se aplica aqui à questão da análise da significância estatística
dos resultados que é vamos dividir os nossos resultados em significativo e não significativo.
E isso devia ser um contínuo e devíamos nos comprometer com a interpretação desse
contínuo.
Nuno Barbosa Morais
E portanto, em teoria, esta ética até nem é muito questionável.
Curiosamente, historicamente, houve quem pensasse de uma forma um pouco diferente.
Por exemplo, o Jacob Bernoulli, que é o autor da Lei dos Grandes Números, digamos assim,
acabou por nunca dar grande utilidade prática à formulação matemática que hoje em dia
é aplicada em sondagens, por exemplo, para estimar uma determinada probabilidade com
uma determinada confiança, uma determinada margem de erro, quantos indivíduos é que
eu tenho que mostrar.
Portanto, esta base estatística das sondagens começa com os trabalhos do Jacob Bernoulli.
Mas ele nunca deu uma aplicação prática a isto porque ele achava que tinha o dever
moral de trabalhar com 99,9%, ou seja, com 0,1% de probabilidade de falsos positivos.
E portanto nunca deu uma aplicação prática.
Pois, e precisas de uma amostra muito maior.
Precisas de uma amostra muito maior e podemos falar sobre isto.
Mesmo no caso, por exemplo, quando foi anunciada a descoberta do bosão de Higgs, os cientistas
do CERN decidiram trabalhar com uma significância superior, portanto um valor P inferior a 1
em 10 milhões.
Portanto, nada comparável a 1 em 20.
Precisamente por isso, porque não queriam fazer, não queriam anunciar, não queriam
especular sobre a existência do bosão sem ter uma certeza quase absoluta de que o que
estavam a ver era a consequência da existência do bosão de Higgs.
Nuno Barbosa Morais
O que nos leva, sobretudo, à base teórica da crise da reportabilidade.
Portanto, estávamos a dizer que isto é discutido há 15, 20 anos.
Há um artigo na Ploz Medicine de 2005, do Ioannidis, que é um metacientista, e que
tem este título bombástico, que é "a maioria das observações publicadas são falsas".
A base para o Ioannidis dizer isto até é mais teórica do que empírica, ainda que possamos
discutir depois que há evidência empírica para a tal crise da reportabilidade.
E qual é a base?
A base parte precisamente da convenção do valor P de 0.05, que é o seguinte.
Imagina que tu és um cientista que tem uma hipótese e decide testá-la com uma significância
de 0.05.
Portanto, de 1 em 20, de probabilidade de achares que a tua hipótese é verdadeira
porque rejeitaste mal a hipótese nula.
Agora, imagina que são 20 cientistas, ou 19 outros, que estão tal como tu a testar
a mesma hipótese com a mesma significância.
O que vai acontecer é que se há uma probabilidade de 1 em 20 de haver um falso positivo, assumindo
que a hipótese é falsa, há um cientista que vai fazer uma observação, portanto vai
recolher dados suficientes ou evidência suficiente para achar que rejeitou a hipótese nula e
que, portanto, a sua hipótese está no bom caminho.
O que acontece aqui é que só ele é que vai publicar essa observação.
Os outros 19, como vão ficar desapontados com o resultado, vão provavelmente guardar
o resultado na gaveta, aquilo que se chama o "file drawer effect", que é "isto não
é relevante, não fazem nada com esse resultado".
E, portanto, se pensarmos que não só os cientistas que fazem a experiência desvalorizam
resultados negativos, ou seja, resultados que não ajudam a validar a sua hipótese,
também quem avalia os resultados, portanto a revisão por partes, também está enviesada
nesse sentido, que é as revistas científicas também não têm muito interesse em publicar
resultados negativos porque, diríamos, que são desinteressantes, não correspondem a
um avanço do conhecimento.
Aqui negativos no sentido de não se ter provado determinada hipótese.
Exatamente.
No fundo, o que o Ioani diz, diz, é isso mesmo, se nós assumirmos que isso acontece
muito frequentemente, nós estamos a publicar muitos falsos positivos porque não temos
a noção de todas as experiências que se fazem que não validam a hipótese e que são
descartadas ou guardadas na gaveta.
José Maria Pimentel
E é isso que nós estamos a ver.
Isso lembra-me um caso, que não sei se é verdade, se é uma história, de alguém que
usou habilmente, não sei como é que lhe é de chamar, essa limitação social, não
na ciência mas nos mercados financeiros, que era um tipo qualquer, que era corretor
ou alguma coisa do género ou consultor de investimentos e enviou um e-mail para, vamos
supor, sei lá, mil pessoas e para 500 enviou uma previsão de que as ações da Tesla iam
subir e no outro de que as ações da Tesla iam descer.
E depois aconteceu qualquer coisa, as ações da Tesla um a pouco subiram, ele pegou nos
500 para que tinha dito que ia subir, voltou a dividir entre os 50 e os 50 e voltou a fazer
outra previsão qualquer para cima e para baixo.
O 50% resultou, 50% não resultou, ele foi estreitando à amostra até que ao fim, como
diria Hugo Teresa em "Fazer os Contos", mas ao fim de uma série de iterações, tu tens
uma pessoa para quem ele fez 10 ou 20 previsões em que acertou sempre.
Sim, exatamente.
Portanto, do ponto de vista daquela pessoa, ele é o maior corretor do mundo.
Sim, sim.
Na verdade não é.
Não, não, exatamente.
É exatamente o mesmo efeito.
Nuno Barbosa Morais
E neste caso, podemos discutir isso melhor, mas é uma das grandes consequências dos
grandes dados hoje em dia, é precisamente essa, não é?
Mas eu já vou.
Deixa-me só completar aqui a ideia de que este artigo do Ioannidis lançou, eu não diria
controvérsia, mas lançou a discussão porque há contra-argumentos e o contra-argumento
que muitos colegas usaram é "isto era verdade se todas as hipóteses fossem igualmente prováveis",
mas os cientistas, como tu referiste, trabalham em cima de "standing in the shoulders of
giants", trabalham em cima de conclusões anteriores e, portanto, a plausibilidade das
hipóteses que os cientistas colocam quando as vão testar é grande.
Ainda que este argumento tenha algum mérito, se quiseres, na intenção dos cientistas,
ele tem algumas fraquezas e eu acho que a maior parte das fraquezas é uma combinação
de uma série de vieses cognitivos, novamente.
Um deles eu costumo chamar-lhe, não sei se é um bom termo, a "maldição da erudição".
E o que é a maldição da erudição?
Que se manifesta muito, sobretudo, em biologia, ou seja, como os temas biológicos são muito
complexos, por exemplo, estão identificados cerca de 20 mil genes codificantes de proteínas
e, portanto, têm uma função, vamos supor, em seres humanos e já houve muitas interações
estudadas entre eles, o volume de conhecimento acumulado e publicado e que as pessoas estudam
em biologia é muito grande e o que podemos pensar é que se associarmos a isso, aquilo
a que se chama o viés de disponibilidade, que é a tua predisposição para, nesse vasto
volume de conhecimento, te lembrares mais do conhecimento que alinha com a tua hipótese,
haverá sempre uma tendência a colocares hipóteses que assentam em conhecimento que
não é o conhecimento todo, mas o conhecimento ou que tu leste mais ou que parece fazer mais
sentido.
Exatamente.
E, a somar a isto, temos o efeito linda, não é, que é a falácia da conjunção que o
Daniel Kármán e o Amos Tversky estudaram, que faz com que…
E que o Desiderio Mouros falou aqui no podcast.
Sim, exatamente, que faz muitas vezes com que determinadas condições específicas
ou hipóteses mais específicas sejam, na cabeça dos cientistas, consideradas mais
plausíveis que hipóteses mais gerais.
Isto porque, precisamente, na mente de um cientista que está entusiasmado com a hipótese,
ela faz todo o sentido.
E, portanto, se nós somarmos estes efeitos todos…
José Maria Pimentel
E haverá, desculpa, se calhar também ainda outro, que é o facto daquilo que tu eludias
no início da pessoa querer fazer grandes descobertas.
Exatamente.
Porque a crise da replicação afetou sobretudo, pelo menos na psicologia, isto é verdade,
não tenho a certeza que seja verdade na biologia e nas ciências biomédicas em geral, que
afetou sobretudo previsões mais inesperadas.
Sim, sim, exatamente.
E, portanto, que, lá está, por serem inesperadas, deram mais nas vistas quando foram descobertas,
mas lá está, partiam de uma premissa que não estava, se calhar, tão assente assim
nas conclusões anteriores.
Nuno Barbosa Morais
Não, exatamente, aliás, e essa é uma nota de, digamos, de cuidado que todos os cientistas
devem ter, que é, quando é bom demais para ser verdade, provavelmente não é verdade.
Há um caso muito típico na nossa área.
Aliás, eu tinha chegado há pouco tempo ao IMM, quando comecei a trabalhar no Instituto,
quando saiu na Nature um artigo de um grupo japonês, de um Instituto RIKEN, que é um
dos mais consagrados institutos de investigação japoneses em biologia, que reportava conseguirmos
transformar células diferenciadas em células estaminais com um banho de ácido cítrico.
Uma coisa muito simples, que era quase banho-maria.
E isto era uma bomba.
Maravilha, não é?
Era uma maravilha.
Como é que ninguém tinha reparado, não é?
Não, exatamente, como é que ninguém tinha reparado que era só dar este banhinho às
células?
Porquê?
Porque, nessa altura, já sabia ser possível reverter a diferenciação solar, mas foram
décadas de trabalho para descobrir aquilo que se chamam os fatores Yamanaka.
Aliás, o Yamanaka e o John Gurdon receberam o Nobel da Medicina da Fisiologia em 2012,
precisamente por terem mostrado este processo, esta possibilidade de se reverter a diferenciação
solar e transformarmos células diferenciadas em células estaminais, ou pelo menos pluripotentes,
jogando com estes quatro fatores de transcrição.
Mas que é tecnicamente bastante exigente.
Os cientistas já sabem como fazê-lo, mas era difícil.
E, de repente, aparece este grupo que diz "não, não, não, isto é um banhinho de
ácido cítrico" e revertemos a diferenciação.
E eu lembro-me dos meus colegas no IMM torcerem logo o nariz e pensarem "isto vai dar bronca
porque não pode ser assim tão fácil".
E provou-se, neste caso, era um caso mesmo de fraude, não é?
E rapidamente se demonstrou não ser verdade.
Mas há, no fundo, isso que é, uma vontade tal de fazer a próxima grande descoberta
que as hipóteses, se quiseres mais sexis, se tornam, na mente dos cientistas, as mais
plausíveis.
Totalmente de acordo.
José Maria Pimentel
E tu dizias, este artigo de 2005, do Ioannidis, que foi o que no fundo lançou esta discussão,
mas esse era um artigo, sobretudo, teórico, não é?
Mas tem havido outros artigos que têm comprovado isto, como tu dizes há bocado, de uma maneira
mais empírica.
Exatamente, exatamente.
Nuno Barbosa Morais
Portanto, isso é aquilo que chamamos a metaciência, que são os colegas nossos que se dedicam precisamente
a estudar estas dinâmicas.
A estudar a ciência, os cientistas da ciência.
Como é que nós sabemos… Sim, é uma área… Eu não conheço nenhum metacientista em Portugal,
senão até o recomendava como convidado.
Pois, provavelmente não há, porque precisa de alguma massa crítica.
Exatamente, e falaria disto muito melhor do que eu e para além de que não é visto como
uma especialidade, se quiseres, portanto é uma coisa muito mais transversal.
Mas há quatro ou cinco demonstrações engraçadas de que este problema existe.
Portanto, são metastudos que fizeram o seguinte, aliás, na sequência da conversa que tivemos
sobre estatística, nós conseguimos prever facilmente que a dispersão do tamanho da
magnitude dos efeitos que são medidos em vários estudos que procuram olhar ou testar
hipóteses parecidas, deveria diminuir à medida que o número, se quiseres…
A amostra, não é?
Da amostra aumenta.
Ou seja, se tu num gráfico puseres, vamos supor, no eixo do X a magnitude dos efeitos
que estás a testar e no eixo do Y o tamanho da amostra, em princípio, vês um funil,
porque vês muito menos dispersão para grandes amostras.
Nuno Barbosa Morais
No fundo, vou convergindo para o valor central, não é?
Para o valor central, exatamente.
Portanto, a ideia é exatamente essa.
Eu abandono-lhe outra vez, não é?
E, aliás, por isso é que é importante fazer metastudos, que é pegarem muitos estudos
pequenos, pôr os dados todos juntos e tens muito mais robustez estatística se os olhares
para eles todos juntos do que de outra forma.
Mas é exatamente isso.
Ou seja, se houver muita gente ou muitos grupos a testar um efeito com amostras pequenas,
o efeito medido ou o efeito estimado vai ter uma variabilidade muito grande, que como tu
estás a dizer, alguns grupos medem um efeito positivo alto, outros um efeito positivo baixo,
outros um efeito negativo alto, etc.
Se os estudos tiverem muita potência estatística, digamos assim, porque usam muitas amostras,
em princípio, esses vários estudos com amostras grandes vão estimar efeitos todos muito próximos
uns dos outros, que é a melhor estimativa do efeito real.
Quando tu pesquisas a literatura para estes estudos e faz o tal gráfico, o que tu verificas
é que não vês um funil, mas vês que faltam efeitos negativos ou nulos em estudos com
amostras pequenas.
Pronto.
Isto é a primeira evidência do tal viés de publicação que diz que um cientista,
quando faz uma experiência com uma amostra pequena e não obtém um resultado que considera
relevante, não o reporta.
E, portanto, tens uma depleção de resultados negativos na literatura.
Há um outro estudo que mostra uma coisa também muito curiosa, que aliás me fez lembrar as
notícias na altura dos vistos gold de um pico de preços nas casas, imediatamente acima
do meio milhão de euros.
E tu tens exatamente a mesma coisa quando faz um meta-estudo da significância das experiências,
que é, tens um pico imediatamente abaixo do 0.05 de significância.
Nuno Barbosa Morais
E a questão é exatamente essa, o que se mostra é que isto resulta, por exemplo, de
se numa amostra, ou num número de amostras, uma amostra que é a que impede o pivélio
de baixar do 0.05, tipicamente há um instinto de a considerar anormal, um outlier de a remover,
não necessariamente com má fé, mas porque se essa amostra se portar um pouco diferente
das outras, vai haver uma intuição no cientista dizer "ah, neste dia em que eu fiz esta experiência
algo correu mal", provavelmente não é credível.
Obviamente que isto devia ser feito antes de se ver o resultado e não depois, mas a
outra hipótese é se tu tiveres dois ou três testes estatísticos que tu consideras que
de alguma forma testam a mesma coisa, provavelmente tendes a escolher aquele que te der o resultado
mais significativo e é esse que reportas.
Claro que se estás a usar testes diferentes e dão resultados diferentes, isto significa
que eles não estão a testar a mesma coisa e aquele que dá o resultado mais significativo
não é necessariamente aquele que melhor reflete a tua pergunta.
Depois há uma senhora, a Annie Franco, fez um estudo muito engraçado, é que foi ver
em projetos financiados o que é que estava escrito quando as pessoas se candidataram
a financiamento e foi ver o que aconteceu a esses estudos nas publicações e há uma
diferença brutal entre o que se disse que se ia fazer e o que depois é feito e reportado,
o que faz pensar que as hipóteses que eram para ser testadas inicialmente não deram
os resultados desejados, mas se encontraram outras observações para as quais se arranja
uma explicação.
Exato, é o "hacking", não é?
Exatamente, é o chamado "hacking", "hypothesizing after results are known".
Nuno Barbosa Morais
De encontrar uma por acá, sim, e este problema agrava-se à medida que nós vamos trabalhando
com dados de dimensões maiores, ou seja, com cada vez mais dados.
Ainda mais dois, lembrei-me aqui de dois estudos engraçados, um é o que, se não estou em
erro, foi em 2005 o Comitê Internacional de Revistas Médicas, precisamente inspirado
nestes estudos que mostravam uma grande discrepância entre o que era anunciado, registado e o que
se fazia, que exigiu precisamente disso, ou seja, os objetivos dos ensaios clínicos tinham
de ser registados antes de arrancar para se candidatarem a serem publicados nestas boas
revistas médicas.
Portanto, ninguém podia publicar sem ter registrado previamente o que é que ia fazer
nos ensaios clínicos.
E o Ben Goldacre, que aliás é o autor de outro livro famoso chamado "Bad Science",
mostrou que, antes disto, apenas 15% dos estudos reportavam o que tinham proposto que iam fazer,
mas descobriu uma coisa muito mais engraçada, que foi o número de resultados que eram considerados
positivos mas que não estavam associados à hipótese proposta, era comparável ao
número de resultados não publicados.
Portanto, o que nós estamos aqui a dizer é que 85% das duas, uma ou não validava
a hipótese inicial...
Ou validava a outra.
Ou validava a outra.
E, portanto, o que faz pensar novamente num efeito semelhante ao de Harkin, que é "eu
gostei de uma coisa, vi resultados que me sugerem outra e vou contar a história ao
contrário".
E há uma mais comum, que esta é observada por nós quase cotidianamente, que é o chamado
efeito Krizálida, que é a metamorfose do conteúdo científico de uma tese, por exemplo,
de doutoramento, quando passa para a forma de artigo.
Ou seja, um estudante de doutoramento desenvolve durante quatro anos um projeto em torno de
testar uma hipótese e o que é interessante é que as teses de doutoramento normalmente
são bastante honestas e bastante completas em relação ao que foi feito e às dificuldades
encontradas e... mas depois, quando é necessário publicar esses resultados numa revista científica,
revista por pares, o que se verifica é que é tudo muito mais limpinho, o potencial impacto
dos resultados está enfatizado.
Nuno Barbosa Morais
E é exatamente esse o problema, ou seja, estes viéses que eu descrevi, os pares que
revêem artigos são cientistas, são colegas, não é?
E, por outro lado, e a Maria Mota falou disto quando teve a conversa contigo, quem publica
são revistas que têm critérios editoriais de impacto, ou se quiseres, de sexiness, não
é?
De quão sexy é esta descoberta...
Sim, quando quão revolucionário é...
Quão revolucionário é... portanto, quão disruptiva é esta descoberta.
E a revisão por pares e o próprio critério editorial não é apenas de qualidade científica
no sentido de robustez dos métodos e de seguir à risca o método científico, há muita preocupação
de, para a nossa revista, vamos selecionar descobertas que a comunidade vai considerar
revolucionárias.
Tem mais impacto.
E, portanto, o que acontece é que passa a haver um esforço dos autores para enfatizar
o potencial impacto das suas descobertas e, como estão cientes de que vai haver este
tipo de crivo, todos os resultados são reportados de uma forma enviesada para enfatizar esse
impacto.
Aliás, há um estudo, voltando à metaciência, há um estudo que mostra que entre 1974 e
2015 o número de palavras de termos positivos, ou seja, que dão um ênfase positivo às descobertas,
por exemplo, uma que se vê muito "outstandingly" nos antigos, e eu estou a dizer em inglês
porque a literatura científica é em inglês.
Portanto, o estudo mostra que a frequência destas palavras de ênfase positiva aumentou
nove vezes nesses 41 anos.
Ok?
Portanto, isto é extraordinário.
Mas há outros estudos que mostram uma coisa ainda mais engraçada, que é que ensaios
clínicos com resultados negativos e negativos no sentido de não se demonstrar o efeito
que ia ser testado, cerca de dois terços desses estudos, ainda assim, publicam efeitos
benéficos e uma forma de contornar, de conseguirem publicar ou reportar efeitos benéficos mesmo
quando os ensaios não o demonstram é, por exemplo, usar termos do género.
Mais antigos, não é?
Sim, do género.
Aqui vemos uma tendência quase significativa.
Portanto, isto é comum em alguns desses estudos.
Isto também mostra o problema de andarmos com limiares.
Também é legítimo.
Também é legítimo.
Porque se limiar é arbitrário.
Se limiar é arbitrário, exatamente.
A liberariedade do limiar.
Mas isto também é algo que é um esforço diário para nós, cientistas, e para nós
também formadores de jovens cientistas, explicar, por exemplo, a cientistas menos experientes,
que é muito fácil ver as tendências que queremos por acaso.
E portanto, há que manter sempre este ceticismo.
Mas isto só para explicar o porquê, ou seja, como é que nós sabemos que de facto estamos
a exagerar um pouco, ou muito, o impacto das descobertas que fazemos na literatura.
José Maria Pimentel
E parte das causas, como tu já o dizes várias vezes, tem a ver com a maneira como o próprio
sistema está construído.
E já lá vamos.
Mas eu acho que antes era interessante ir a outro aspecto que eu também já referiste,
que é o impacto que tem tido também, sobretudo nos últimos anos, o surgimento do chamado
Big Data, não é?
De repente passaste a ter muito mais dados e ao mesmo tempo também, digo eu, a complexificação
dos modelos, não é?
Seja modelos estatísticos que se tornaram mais complexos, ou seja, métodos estatísticos
mais complexos, ou depois a entrada em cena da inteligência artificial.
Tu achas que isso, sobretudo nestas áreas cujo objeto de estudo está muito distante
desta quantificação, não é?
Como, por exemplo, a biologia e a medicina.
E portanto, cujos cientistas, se calhar, também não têm essa formação de base tão forte,
tu achas que isto tem sido um desafio adicional, não é?
Sim, sim, um desafio grande.
Nuno Barbosa Morais
Portanto, isto de alguma forma amplifica o problema.
O problema, pois.
Digamos que, sobretudo a biologia celular e molecular, sofreu nos últimos 20 anos dores
de crescimento nesse sentido.
O que é que eu quero dizer com isto?
Nós, a partir de finais dos anos 90, começamos a conseguir, eu aqui vou dar como exemplo
aquilo que é mais próximo ao meu trabalho, mas essencialmente, como eu tinha dito, os
humanos têm cerca de 20 mil genes codificantes de proteínas, digamos, que são unidades
estruturais e funcionais dos nossos organismos.
E mais ou menos a partir de meados dos anos 90, com uma tecnologia que eu não consigo
traduzir para português, os brasileiros chamam-lhe microarranjos, que é os microarrays, nós
conseguimos começar a sondar a atividade de todos os genes, ou da grande maioria dos
genes, conseguimos começar a medir a atividade de todos os genes ao mesmo tempo.
Ou seja, conseguíamos pegar numa amostra de um tecido humano e de alguma forma tirar
uma fotografia a todos ao mesmo tempo.
E isto, no início, como estas tecnologias eram caras, tu podias fazer isto, mas não
podias fazer isto com muitas amostras.
Então o que é que acontecia?
Tu tinhas a possibilidade de testar, vamos supor que se estivesse a olhar para a atividade
de 20 mil genes, testar 20 mil hipóteses ao mesmo tempo, mas com uma amostra relativamente
pequena.
E isso, por exemplo, leva muito aquilo a que já falamos aqui do harking, não é?
De "ok, eu vou testar, vamos supor, vou comparar aqui amostras de tecido doente com
amostras de tecido saudável, vou perguntar que genes é que mudam a sua atividade entre
tecidos doentes e tecidos saudáveis e depois logo me preocupo com a explicação".
Pronto, é exatamente isso.
E sabendo disto, em estatística, tu deves fazer, quando fazes isso, é corrigir para
testes múltiplos, ou seja, é controlares para o facto de se testares muitas vezes,
digamos o p/L individual, o valor p/L individual, só vale para um teste, temos que o corrigir
para o facto de estarmos a fazer isto muitas vezes.
Mas, e eu aqui posso dar alguns exemplos, o que acontece é que tu podes sempre fazer
os 20 mil testes, ver quais é que te dão o valor p abaixo de 0.5 e depois, de alguma
forma, pensar "ah, eu tenho aqui uma boa hipótese para isto" e contar a história
ao contrário.
Ou seja, de alguma forma fazes de conta que sempre tiveste aquela hipótese que só foste
testar aquela.
Era só aquela.
Curiosamente, um investigador português que trabalha em Inglaterra, o João Pedro Magalhães,
recebeu um artigo muito engraçado, há uns anos, em que ele mostra, por pesquisas na
literatura, que praticamente todos os genes humanos são associados a câncer, de uma
forma ou de outra.
Tu encontras sempre evidência.
E isto eu semanalmente recebo para rever, e agora já não consigo dar conta do recado
e já me recuso a fazê-lo, vários pedidos de revisão de artigos em que se mostra que
um determinado gene tem valor prognóstico num determinado tipo de câncer.
Aliás, eu posso dizer que um dos meus projetos para os próximos tempos é eu fazer uma análise
em larga escala de dados para mostrar que se pode encontrar para cada tipo de câncer
milhares de genes com valor prognóstico, sem que isso seja relevante.
E aliás, uma consequência disto é precisamente a taxa de sucesso de ensaios clínicos em
câncer e em outras áreas de ser baixos, precisamente porque estamos a levar a ensaio
muitos falsos positivos.
Não fazem sentido.
Nuno Barbosa Morais
Mas só o que tu disseste, eles se expressarem em conjunto, o que acontece é que cada gene
pode estar envolvido em muitas atividades, ou seja, digamos, a atividade interage uns
com os outros e há genes que estão, aquilo que nós chamamos de vias de sinalização,
estão envolvidas, o mesmo gene pode estar envolvido em muitas coisas.
E aí voltámos outra vez ao viés de disponibilidade, que é, se de repente um gene que te aparece
está envolvido numa via de sinalização que te interessa e a probabilidade de estar envolvida
em qualquer uma é muito alta, tu vais arranjar uma explicação.
Por exemplo, na maior parte das vezes ao analisar os dados, tu vês genes associados a Alzheimer
ou a Parkinson que também estão em vias de sinalização imunitárias muito importantes,
não é?
E portanto, tu consegues sempre ir aos resultados, buscar informação que de alguma forma se
relaciona com a tua hipótese ou o teu interesse.
Portanto, este problema do harking é muito comum quando fazes muitos testes e sobretudo
quando fazes com amostras pequenas.
Um exemplo fortíssimo do problema de reportabilidade associado a isto de testarmos muitas vezes
com amostras pequenas é bem exemplificado pelos primeiros estudos de associação de
genes com doenças.
Ou seja, a partir do momento em que nós passamos a ter a capacidade de sequenciar DNA de indivíduos,
nós já somos capazes de sequenciar DNA graças ao trabalho liderado pelo Fred Sanger há
50 ou 60 anos, mas a capacidade de sequenciar muitos genes ao mesmo tempo vem de há 20
anos.
Portanto, o primeiro rascunho, digamos, da sequência do genoma humano foi publicado
em 2001 e essa é a altura em que tornou-se mais acessível essa tecnologia.
Mas novamente, sendo uma tecnologia cara, ainda não estávamos em condições de sequenciar
muitas amostras para os grandes estudos.
E então, uma das primeiras aplicações desta capacidade de sequenciar todos os nossos
genes foi procurar genes cujas variantes genéticas estivessem associadas a doenças.
Ou seja, procurar para determinadas doenças mutações, ou nós chamamos polimorfismos,
que pudessem estar associados a essas doenças e de alguma forma dar uma base genética para
um possível mecanismo e, eventualmente, até para uma abordagem terapêutica.
E quando se fizeram os primeiros estudos, e a maior parte deles até eram do foro da
neurologia, portanto, genes associados à esquizofrenia, por exemplo, foram encontrados
bastantes genes e com efeitos bastante fortes, de acordo com esses estudos.
Mas o que aconteceu depois, portanto, nessa altura houve um grande entusiasmo, agora que
conseguimos sequenciar genomas, vamos descobrir as causas genéticas de todas as doenças,
etc.
Mas o que aconteceu foi que estas tecnologias que nos permitem olhar para o nosso genoma
na sua escala completa, se foram tornando mais baratas, mais acessíveis, foram-se acumulando
dados e quando estes estudos, digamos, de procura de genes candidatos a estarem associados
com doenças, passaram a envolver amostras muito maiores, o que aconteceu foi que os
efeitos que tinham sido reportados inicialmente não se verificaram, ou seja, eram falsos
positivos.
Estavas a fazer essa seleção?
Estavas a fazer isto, ou seja, estavas a fazer…
Voltando ao funil, estavas a escolher só o lado direito, não é?
Estavas só a escolher o lado dos grandes efeitos.
Ou o lado esquerdo, portanto.
E, portanto, o que aconteceu foi exatamente isso.
E isto até revela uma certa ingenuidade de quem se entusiasmou com os primeiros efeitos,
porque os temas biológicos são muito complexos e já há 100 anos o Fischer postulava que
a maior parte dos efeitos eram poligénicos, ou seja, que a maior parte do que nós observamos
é o coletivo de efeitos pequenos de muitos, muitos genes e hoje a grande dificuldade em
estudar a base genética das doenças é precisamente essa.
É que a maior parte delas, a maior parte das coisas que correm mal nas nossas células
e nos nossos organismos, se tiverem uma base genética, não têm um gene causador, têm
pequenos efeitos de muitos genes juntos.
José Maria Pimentel
Por isso é que aquela revolução do CRISPR não teve tanto impacto como se esperava inicialmente,
porque há um ou outro caso em que tu consegues alterar o gene e de facto ele está diretamente
associado à doença, mas na maior parte dos casos terias que alterar muitos e depois,
é que digo, acrescento eu, não tenho certeza se é verdade, provavelmente é, mesmo conseguisse
encontrar, descobrir os genes associados a determinada doença, se fosse alterá-los
todos terias outros efeitos secundários que se calhar também não são desejáveis.
Não, exatamente.
Ou pelo menos imprevisíveis.
Nuno Barbosa Morais
E voltando ao Fischer, o Fischer até foi a primeira pessoa que deu uma base mais quantitativa
à teoria da seleção natural do Darwin e uma das coisas que ele também concluiu, acho
que não explicitamente, mas que se inferia dos trabalhos dele e que hoje se sabe, é
que uma alteração genética que tenha um efeito muito forte, sobretudo negativo, nunca
será selecionada, não é? Portanto, era altamente improvável encontrarmos um gene
causa da doença com efeito muito forte na população.
Pronto, portanto, às vezes voltamos a estes viés, há um entusiasmo que até não é
justificado olhar...
A olhar da própria lógica, não é?
Sim.
Há aqui uma outra, só para responder de forma mais completa à tua pergunta, das consequências
do crescimento de numerodades, mas também das dificuldades estatísticas.
A evolução das metodologias quantitativas.
Voltando ainda um bocadinho atrás a esta questão do tamanho da amostra e da significância,
um dos grandes problemas, até quase éticos e morais, com o qual lidamos nesta crise de
reportabilidade tem a ver com a experimentação animal, por exemplo.
Ou seja, há uma preocupação entre os cientistas de minimizar o número de animais usados em
experiências e sacrificados em experiências quando é necessário.
E então o que acontece muitas vezes é quando tu vais ver o que está publicado usando animais,
só 0,7% dos estudos, portanto menos de 1 em 100, é que explicam como calcularam o número
de animais necessários para testar um determinado efeito.
E, portanto, o que acontece é que nós temos a maior parte dos estudos que envolvem animais
precisamente por um bom motivo, ou seja, a preocupação de sacrificar o mínimo possível,
não tem poder estatístico suficiente, ou seja, é muito comum ser 3 contra 3, por exemplo.
É, isso é menos que o exemplo do chá.
É, é menos que o exemplo do chá e do leite, exatamente.
E então o que acontece é que, a isto eu ainda posso, se quiseres, somar alguns outros
problemas como só cerca de 25% é que tem um design aleatório, só 30% é que fazem,
digamos, os ensaios de forma cega, que é a pessoa que está a fazer a experiência
não saber quais são os grupos envolvidos e qual a pergunta, mas o problema que aqui
se coloca, voltamos ao funil, não é?
É que quando fazes estudos com muito poucos animais, tu só reportas resultados fortes.
E porquê também?
Porque para atingires uma significância estatística, o tal P de 0,05, com poucas amostras, precisas
de um efeito mais forte, ou seja, se tens menos evidência para um efeito, para afirmares
o efeito, o efeito tem que ser mais forte.
Ora, qual é o problema disto?
É que, um pouco como os genes candidatos nos estudos de associação genética, o que
tu estás a reportar são efeitos falsamente fortes, mas que servem de base para estimar
a potência estatística dos estudos subsequentes.
E portanto, se tu num estudo que se inspira no outro que reportou um efeito forte, tu
vais desenhar um estudo com menos amostras do que há que seria necessário porque estás
a sobreestimar o efeito e se estás a sobreestimar o efeito não precisas de uma amostra tão
grande.
Isto, no fundo, é um problema porque, na prática, provavelmente na experimentação
animal, nós devíamos eventualmente fazer menos estudos com mais animais, ou seja, aceitar
que para fazer um bom estudo sacrificamos mais animais, mas não fazer tantos pequenos
estudos que não têm potência estatística.
Depois tens aí o problema ao contrário, que é quando tu fazes crescer muito o número
de amostras, qualquer efeito diminuto tem significância estatística porque, na maior
parte destes testes de hipóteses, sou ponto de vista, se quiseres, quantitativo ou matemático,
a hipótese nula é não estar a acontecer nada, mas 0.000 efeito.
Ora, se tu acumulares uma amostra muito grande, tu vais ter potência estatística para atribuir
significância a efeitos muito pequenos.
Aliás, na natureza nenhum efeito é zero, nada é 0.000.
Nuno Barbosa Morais
Sim, o teu grau de incerteza sobre o que estás a medir vai diminuindo à medida que tu aumentas
o tamanho da amostra.
Portanto, se estiveres a medir uma diferença, vamos supor, entre dois grupos, a precisão
com que medes o que está a acontecer em cada um dos grupos é muito alta e, portanto, se
a diferença observada for superior à precisão, tu podes dizer que essa diferença é significativa.
Agora, com amostras muito grandes, podemos estar a falar de uma alteração de 0,1% por
exemplo na atividade de um género.
Ora, nunca ninguém em biologia fez uma experiência a demonstrar que perturbar em 0,1% a atividade
de um género tem qualquer efeito relevante, ainda que seja significativo.
E o que passa a acontecer…
Agora, desculpa interromper-te outra vez, mas é importante, acho que para quem está
Nuno Barbosa Morais
Mas aqui há tal questão que é, nós queremos ter observações reprodutíveis, mas os efeitos
que estamos a testar, nós estamos a testá-los na assunção de que eles são relevantes,
não são só uma observação reprodutível.
Exatamente.
Sim, sim.
E o que acontece, nós muitas vezes dizemos precisamente que a dimensão do efeito é
o elefante na sala, quando se trabalha com grandes dados, é que se a hipótese do investigador
passar por demonstrar significância na rejeição da hipótese alternativa, a dada altura o
investigador agarra-se à significância e esquece que provavelmente o efeito que demonstrou
ser significativo não é suficientemente forte para ter qualquer...
Esquece o que devia ser mais importante.
Esquece o que devia ser mais importante.
Ou seja, na prática as duas são importantes.
Aliás, o que nós...
Não é mais importante, o ponto de partida.
O ponto de partida devia ser esse, exatamente.
O que nós fazemos, aliás, quando olhamos para este tipo de dados, é fazer o... nós
chamamos os gráficos de vulcão, os volcano plots, que é colocar no oeste do X o efeito
e no oeste do Y a significância.
E porquê é que nós chamamos o vulcão?
É porque, em princípio, consideramos no oeste do X efeitos positivos e negativos, mas
em princípio suspiras que quanto mais extremos seja o efeito, maior também a significância.
Quando há esta proporcionalidade, em princípio, o que tens é um gráfico quase em forma de
V, faz lembrar um vulcão em erupção se for desenhado com muitos pontos, e o que te interessa
é buscar os cantos superiores deste gráfico, que é "eu tenho evidência, estatisticamente
significativa, de que este é um efeito forte".
E esses seriam, em teoria, os... e na prática, efetivamente, é o que se mostra, os efeitos
mais relevantes.
Portanto, os que de facto têm forte probabilidade de serem biologicamente relevantes e são reprodutíveis,
são estatisticamente muito significativos.
Digamos, todas estas dificuldades em lidar com a estatística agravam-se com os grandes
dados e agravam-se de várias maneiras.
Entram os vieses outra vez também.
Entram outro tipo de viese, exatamente.
Portanto, um deles é, referi agora, a significância de efeitos diminutos, a outra é, por exemplo,
aquilo que se chama o "overfitting", que é, tu tens muitos dados, queres explicar
os dados, então vais à procura de um modelo que explique os dados.
Mas, maiormente em biologia, os dados são bastante ruidosos e se nós exageramos nesta
preocupação de encontrar um modelo que explique os dados, a dada altura estamos a encontrar
um modelo para o ruído dos dados.
O que é que isso significa?
Significa que quando aplicarmos o nosso modelo a novos dados da mesma natureza, ele já não
vai encaixar nos novos dados.
Portanto, este é um dos problemas.
Nuno Barbosa Morais
A natureza da crise da reportabilidade passa por aí, que é de repente nós somos inundados
com dados e vamos à procura de alguma coisa interessante e testamos tudo até aparecer
qualquer coisa interessante.
E a mesma coisa é, se tivermos que explicar os dados, vamos à procura sempre de um modelo
que os explique e vamos à procura de algo que depois se possa dizer "faz sentido".
Aliás, eu já fiz uma outra vez mal dados a alguns colegas meus só pelo prazer de
testar isto academicamente, que foi tornar resultados de uma análise aleatórias e dar
a colega meus para interpretar e eles encontravam explicações até bastante coerentes com
o que estava na literatura, pouco estava a acontecer, precisamente porque não estavam
cientes de que todos estes viés pudessem fazer encontrar coisas explicáveis em resultados
aleatórios.
E isto também é muito, esta tendência humana, acho que se chama apofonia, não é, de encontrarmos
padrões em tudo, não é, de vermos um cavalinho quando olhamos para uma nuvem, etc.
Aplica-se muito quando, com dados de grandes dimensões, quando, por exemplo, os pomos
em gráfico e vemos padrões que nos parecem ser resultado, digamos, de um efeito, no
nosso caso, por exemplo, biológico, mas que resultam do acaso.
Há um exemplo histórico, mas eu também te vou dar um exemplo nosso, digamos, da investigação
biométrica.
Foi quando, durante a Segunda Guerra Mundial, os ingleses olharam para o padrão de incidência
das bombas alemãs, não estou a enrufar mesmo em Londres, e quando olhavam para o mapa elas
pareciam concentrar-se em zonas estratégicas e gerou-se o pânico que, afinal, os alemães
já tinham uma tecnologia de direcionamento nos bombardeamentos muito avançada.
E depois vieram os estatistas e disseram "não, não, fiquem tranquilos que este padrão é
compatível com a aleatoriedade e eles estão a disparar ao acaso e é onde acertar".
Tu tens uma coisa que acontece, por exemplo, quando fazes mapas de incidência de doenças,
por exemplo cancro, mapas geográficos desta incidência e, pelo acaso, um concelho vai
ser sempre uma incidência um bocadinho maior ou um caminho menor que no concelho ao lado,
uma freguesia vai ter uma incidência maior que a freguesia ao lado.
Nuno Barbosa Morais
E esta aleatoriedade muitas vezes não é bem percebida e então começam os epidemiologistas
mais incautos ou provavelmente os epidemiologistas, não tanto porque já estão formados, mas
colegas que não estão habituados a estes estudos, a questionar-se porquê é que aquele
concelho tem uma incidência mais alta, porquê é que aquele tem uma incidência mais baixa
e à procura.
E aí entra novamente esta questão de ir procurar explicações e de certeza que se
vai encontrar uma explicação, ainda que não válida, para isso porque, obviamente,
há muitas diferenças entre concelhos e freguesias que tu podes associar estas incidências
mesmo que não sejam verdade, ou seja, a correlação não é causalidade nesse sentido.
Um outro problema associado, no fundo, a este acumular de dados e, de alguma forma, à má
formação, a estatística dos cientistas, tem a ver depois com o próprio uso dos computadores
e do software de apoio a estas análises, não é?
Ou seja, há um problema que é a utilização deste software como caixas negras.
Eu sou dos que advoga softwares de análise como sistemas de apoio à decisão, no sentido
em que o programa nunca dá respostas, está lá apenas para fornecer boa informação
ao investigador para tomar decisões e encontrar a resposta, mas, obviamente, que se usarmos
um programa como uma caixa negra, fazemos entrar os dados e podemos até otimizar os
parâmetros do programa sem saber exatamente o que é que estamos a fazer, até dar em
algo que nos parece uma boa resposta.
Nuno Barbosa Morais
E, portanto, a questão, aliás, tenho tido muito essa preocupação quando apresento
o nosso trabalho, dizer o seguinte, quer dizer, se dois programas que é suposto testarem
a mesma coisa não vos derem a mesma resposta, claramente não estão a testar a mesma coisa
nem a fazer a mesma pergunta e, portanto, é importante perceber, mesmo que continuem
a usar os programas e tirar proveito do processamento dos computadores, como é que cada passo de
uma análise informática traduz a pergunta científica.
Esse é um aspecto muito importante e, depois, isto agrava-se ainda mais quando começamos
a entrar pela utilização de algoritmos de aprendizagem automática, inteligência artificial
para classificar coisas e encontrar padrões nos dados que nos permitam fazer previsões,
etc.
E não sabes mesmo o que está a passar lá dentro.
Não sabes o que está a passar lá dentro e, portanto, nós acontecemos, em Biologia
já acontece-se muitas vezes, haver esse tipo de problemas da caixa negra em que o que nós
questionamos ou olhar para os resultados, essa qualidade dos dados que entram, ou que
temos que questionar sempre, por exemplo, quando usamos algoritmos de aprendizagem automática
e de inteligência artificial, é se a qualidade dos dados é o suficientemente boa, por exemplo,
para não refletir os nossos próprios viés, ou seja, não estarmos a ensinar a máquina
a pensar com os mesmos viés que nós temos.
Aquela expressão do "garbage in, garbage out".
Nuno Barbosa Morais
A maior parte dos exemplos mais engraçados são, por exemplo, algoritmos de análise
de imagem para um caso assim mais mundano.
Foi um algoritmo de análise de imagem desenvolvido para distinguir cães de lobos a partir de
fotografias.
E foi um algoritmo que foi treinado, portanto, com muitas fotografias de cães e muitas fotografias
de lobos e que tinha uma performance extraordinária.
Mas houve um dia em que o algoritmo falha porque lhe foi dada a fotografia de um husky
e ele chamou-lhe lobo e foi-se ver o que é que estava a acontecer.
Pronto, os huskies até são relativamente parecidos com lobos.
Digamos, quando se abriu a caixa negra, o que se descobriu é que o algoritmo não estava
a classificar o animal, mas estava a classificar o ambiente envolvente.
Ou seja, porquê?
Porque todos os lobos eram fotografados no estado selvagem e todos os cães tinham sido
fotografados ou em ambiente doméstico, em jardins, etc.
Este husky, curiosamente, estava na neve e, portanto, como a maior parte de fotografias
com canídeos na neve eram lobos, assumiu que eram lobos.
Isto pode acontecer.
Isto é um caso de overfitting, no fundo.
Isto é um caso...
Ele esteve a interpretar ruído como sinal, não é?
José Maria Pimentel
E eu acompanho outro exemplo muito parecido com esse, que era com vacas, que as imagens
que tinham sido fornecidas ao algoritmo eram todas de vacas, se eu me engano eram todas
de vacas, quer dizer, brancas com pitas pretas e, portanto, o que o algoritmo estava a apanhar
como significando vacas era, entre outras coisas, e se calhar, sobretudo, esse padrão da coloração
do pelo, não é?
Sim, sim.
E, de repente, depois uma vaca castanha, que nós sabemos que é uma vaca não mesmo, mas
que não tem aquela cor, e ele não a apanha como sendo uma vaca.
José Maria Pimentel
Contribua para a continuidade e crescimento deste projeto no site 45grauspodcast.com.
Selecione a opção "Apoiar" para ver como contribuir, diretamente ou através do
Patreon, bem como os benefícios associados a cada modalidade.
Eu queria voltar àquilo que nós falámos mais no início, os aspectos mais institucionais,
ou seja, da maneira como a ciência está organizada, porque isso depois também nos
leva às soluções, enfim, para estes desafios, para a reia de problemas, para lá daquilo
que nós já fomos falando, que tem mais a ver com literacia quantitativa.
Antes disso, há uma explicação possível para este fenómeno, que nós ainda não falámos,
e que de certa forma desculpabiliza os outros fatores que nós fomos falando até aqui,
seja da negligência ou destes incentivos que o sistema de publicações cria.
É possível que a ciência tenha, de certa forma, não digo esgotado, mas pelo menos
já tenha consumido a maioria daquilo que costumamos chamar de "low-hanging fruit",
com aquela analogia de uma árvore, não é?
Tens os frutos que estão acessíveis pela tua mão, tu passas e tiras-os, enquanto
os outros que estão lá em cima dão-te muito mais trabalho, tens de fazer uma escada,
admitindo aqui nesta analogia que não tens uma escada à mão, ou no mínimo tens de
subir a escada, tens de te esticar mais, tens de andar à procura porque eles estão escondidos
atrás da folhagem, dá muito mais trabalho.
E a verdade é que há, e depois ponho isso nas referências, ainda há pouco tempo apanhei
um estudo de metaciência, na verdade na altura não pensei que seria de metaciência, mas
era de metacientistas de certeza, que analisavam em várias áreas, eu sei que incluía as
ciências naturais e as ciências sociais, o impacto das descobertas.
Não sei como é que eles quantificavam a questão do impacto, mas o gráfico era interessante
porque era uma linha descendente, que não era a mesma para todas as áreas, mas tinham
comum o facto dessa tendência descendente, ou seja, no fundo, com o passar das décadas
o low-hanging fruit tinha sido colhido, portanto aquelas descobertas com maior impacto e agora
o que tu estavas a descobrir eram descobertas com um impacto mais pequeno, não é?
Será que isso pode explicar o que está a passar aqui também?
Sim, eu acho que sim.
Nuno Barbosa Morais
A questão aqui é que há muito mais publicações do que havia no passado, há muito mais gente
a fazer ciência e provavelmente o número total de grandes descobertas não cresceu
tanto, ou seja, eu acho que esse efeito é sobretudo um efeito proporcional.
Então não é o número total, é o impacto médio?
O impacto médio, sim, sim.
Ok, por acaso não tenho certeza, mas é possível.
Continua a fazer, eu acho que sei a que estudo estás a referir e o que parece acontecer
é que nós aumentamos muito o número de cientistas, de instituições a fazer ciência,
mas continuam a ser as mesmas ou mais ou menos o mesmo volume de cientistas a que poderíamos
fazer as grandes descobertas.
Mas esse, se estávamos a pensar no mesmo estudo, também é preciso interpretar esses
dados com algum cuidado, por exemplo, porque uma parte da avaliação de qual o impacto
das descobertas passa também pela análise de citações, não é?
E por exemplo, se eu estivesse a medir, como falei há pouco, expressão gênica com tecnologia
de microarrays e passar a medir consequenciação, os artigos de microarrays deixam de ser citados.
Portanto, há aqui um fenómeno importante que é, nós temos que perceber, por exemplo,
nesta dinâmica de medir impacto com base em citações, se há fenómenos destes, é,
causou-se a tecnologia e cria uma descontinuidade.
Isso é verdade.
No entanto, eu sinto que em termos proporcionais, ou seja, o número de descobertas importantes
não acompanha o crescimento da comunidade e, portanto, nisso eu não tenho grandes dúvidas.
Mas isso é normal.
Isso é normal, não é?
Sim.
Agora, o que acontece é exatamente isso, é que com algumas exceções, portanto, não
é para generalizar, com algumas exceções, as grandes descobertas e que tu podes chamar
de low hanging fruit, num estado atual, agora toda a fruta está muito alta.
Exato.
Mas o que eu digo é que, normalmente, o que acontece é que há grandes descobertas quando,
por exemplo, uma tecnologia permite mudar a escala com que se mede qualquer coisa.
No caso da investigação biomédica, a partir do momento, como eu disse, em que tínhamos
a capacidade de medir a atividade de todos os genes ou sequenciar todos os genes, há
alguns avanços importantes que se fazem, precisamente agarrando essa low hanging fruit.
E há algumas exceções interessantes que até são circunstanciais.
Por exemplo, as vacinas da RNA que nos ajudaram a resolver o problema da pandemia não foram
desenvolvidas, a tecnologia não foi desenvolvida especificamente para o SARS-CoV-2, não é?
As vacinas da RNA estavam a ser desenvolvidas a pensar sobretudo em cancro, mas ainda não
tínhamos chegado a um ponto em que conseguíamos demonstrar eficácia e essa tecnologia foi
adaptada e mostrou ser muito mais eficaz a resolver esta pandemia por um vírus.
Portanto, muitas das vezes, até já há tecnologias potencialmente disruptivas, no bom sentido,
digamos, a serem marinadas nos laboratórios, mas a aplicação que permite essa revolução
não está presente.
Mas o problema aqui é o seguinte, é que precisamente porque é, como tu dizes, mais
difícil chegar à fruta alta, há também algo que, na minha opinião, é contraproducente,
que é a tendência para os cientistas se hiper especializarem a irem à procura do
tal nicho distante, focarem-se numa fruta que está lá muito em cima da árvore e arranjar,
digamos, a sua zona de conforto para fazer a investigação em torno desse nicho.
Obviamente que isto faz, e aqui usando a mesma analogia, se quiseres da ciência procurar
estender os limites do conhecimento e se olharmos para este conhecimento, pensássemos nesse
conhecimento como uma esfera, na prática o que estamos a fazer é com que os limites
de conhecimento estejam a expandir-se mais à moda de um oriço.
Nuno Barbosa Morais
Sim, mas num certo sentido a copa, ou pelo menos os gajos que estão mais longe, provavelmente
têm menos folhagem, portanto dão por daí esse aspecto oriço, porque não conseguimos
com esta capilaridade cobrir toda a fronteira.
E ao mesmo tempo, na minha opinião, ficam também com esta especialização, ou seja,
passa a haver vazios entre os galhos e provavelmente até ficam buracos na base.
Qual é o problema disto?
É que muitas das grandes descobertas resultam de empreitadas coletivas, de sinurgia de pessoas
com formação diferente ou de pessoas que têm uma formação mais horizontal que fazem
pontes entre áreas.
E na minha opinião o que está a acontecer é que a maior parte dos estímulos que temos
em investigação não só não promovem muito a colaboração entre disciplinas, mas também
não promovem a formação transversal e interdisciplinar.
Promovem uma hiperspecialização das cientistas.
Uma hiperspecialização e não, e provoca sobretudo algo que nós estivemos a discutir
nesta conversa, que é, tomando os exemplos da estatística ou dos algoritmos, para usar
bem estatística em biologia, tu precisas de pessoas que saibam de estatística, mas
que percebam a natureza dos dados biológicos, ou seja, precisas de estatísticos muito interessados
em biologia ou de biólogos muito interessados em estatística.
Se tu quiseres, e isto é muito na linha do que nós fazemos no IMM, aquilo que se chama
a biologia computacional ou a bioinformática, se tu quiseres aplicar algoritmos a dados
biológicos tens que ser um biólogo que percebe bem os algoritmos em que te interessa ou um
cientista da computação que tem muito interesse pela biologia e pela estrutura daqueles dados.
É um caminho difícil.
É um caminho difícil e o que acontece infelizmente é exatamente isso.
Uma das fontes desta crise de reportabilidade no que é publicado está associada precisamente
à revisão por pares, falhar, por exemplo, na parte estatística e falha porque não
há gente suficiente para rever todos estes artigos com essa preocupação.
Nuno Barbosa Morais
Exatamente e muitas vezes também aqui há uma crítica implícita aos meus colegas mais
biólogos, mas há também o contrário, ou seja, há muitas vezes dá-se um artigo para
rever um estatístico e não havendo um interesse muito grande no problema biológico há uma
série de assunções em relação à forma como os dados são gerados, etc, que não
estão corretas e portanto há críticas muito injustas porque não se perceberam os dados.
Eu posso dar um exemplo muito simples, eu sou muitas vezes convidado para fazer arguências
de tese de mestrado em que o estudante, o candidato, trabalhou com a orientação de
uma pessoa de biologia e uma pessoa, vamos supor, de informática e o trabalho envolvia
análises de grandes dados biológicos.
Eu trabalho muito com dados de RNA e o que acontece quando nós trabalhamos com estas
tecnologias com dados de sequenciação para medir a atividade de genes, as medidas são
relativas, ou seja, não são absolutas.
Eu não consigo dizer exatamente quantas moléculas de RNA de um determinado gene estavam dentro
de um tecido, mas consigo dizer relativamente às moléculas de RNA de outro gene no mesmo
tecido, mas não consigo comparar os números diretamente e portanto para eu tornar...
Porquê?
Porque o tamanho da mostragem de moléculas não é o mesmo da mostra para mostra, portanto
eu tenho que normalizar para o número de leituras, para o número de moléculas que
é real.
Pronto, tudo bem, estatisticamente ou matematicamente isto não tem dificuldade de fazer, o processo
chama-se normalizar os dados, que é tornar os dados comparáveis.
Só com o RNA há aqui um aspecto muito curioso que é, tu podes normalizar para o peso total
da RNA, ou seja, qual era a massa da RNA que estava no tecido e porquê é que pode ser
importante fazer isto?
Porque quando tu sequencias os RNAs são partidos em fragmentos, todos mais ou menos com o
mesmo tamanho e uma molécula longa vai ter mais fragmentos sequenciados, portanto mais
informação que uma curta.
Ou podes normalizar para o número total de moléculas.
Isto são coisas diferentes porque se uma amostra tiver uma tendência para ter moléculas
de RNA mais longos e outra mais curtos, vai fazer toda a diferença normalizar para o
peso total ou para o número de moléculas.
Repetidamente quando eu vou fazer estes exames eu pergunto que normalização foi feita e
porquê e o que me apercebo é que muitas vezes não recebo resposta porque o orientador
de biologia confiou no colega que é bom analisar dados e portanto nem sequer se fez essa pergunta
será que ele está a normalizar para o número total de moléculas ou para a massa.
E o outro não tinha noção.
E o outro não tinha noção de que isto era importante e correu a normalização que era
mais elegante ou mais limpa ou que matematicamente fazia sentido sem ter pensado que isto é
muito importante.
O que tu precisas tipicamente é um exemplo de faltar ali um, eu quase diria uma empatia
entre os dois lados e isto no fundo é numa escala diferente também o problema das duas
culturas do Charles Quartz e Sinó, não é?
Que é nós olhamos sempre para o outro especialista como alguém que está na outra área.
É muito curioso, eu sendo biólogo computacional, eu faço uma, isto é em jeito de piada, mas
eu faço, é muito engraçado que eu digo que os colegas que mais me respeitam me chamam
especialista e os colegas que menos me respeitam me chamam generalista porque como o ser generalista
é visto como uma coisa negativa e o ser especialista é que é visto como uma virtude.
Portanto na prática para alguém que me vê como diferente eu sou especialista de outra
coisa ou alguém que não acha muita piada esta superficialidade ou aparente superficialidade
de alguém que cobre muitas áreas como se faltasse.
No fundo é verdade, não é?
Nosso cérebro é limitado e o teu conhecimento pode ser mais horizontal ou mais aprofundado.
Mas a profundidade é que perdes as ligações, não é?
Exatamente, é um pouco isso, portanto há espaço para todos, no fundo é a mesma coisa.
José Maria Pimentel
E no fundo esse era um aspecto institucional que nós não tínhamos falado no início
e portanto é a ponta perfeita para nós falarmos desses aspectos institucionais porque essa
tendência para a hiperspecialização que existe em todas as áreas da ciência, naturais
ou sociais, no fundo aqui neste caso provoca que o cientista que está a fazer o trabalho
muitas vezes não tem noção de determinados factos que precisaria de saber e quem está
a avaliar esse trabalho, sejam os orientadores da tese, sejam os peer reviewers, os pares
que estão a fazer a revisão, muitas vezes também eles próprios têm essa meio-pia,
não é?
Eles próprios têm as sangue-luz morta e isso no fundo explica ou ajuda a explicar porque
é que este sistema de revisão por pares, que é um, como tu explicaste logo no início
da nossa conversa, é um dos alicerces da ciência moderna, por vezes não está a funcionar
bem, não é?
Sim, sim, exatamente.
E isso explica, a par destes desafios das estatísticas, explica, enfim, explica esta
crise, chamamos-lhe assim, ou pelo menos o facto de de repente haver conhecimento que
se julgava estar acumulado e não corresponder exatamente ao conhecimento.
Nuno Barbosa Morais
Sim, estás a pegar num dos, chamamos-lhe, estímulos perversos que gera este problema,
não é?
Que é o estímulo à publicação, mas há aquela primeira parte de que eu já falei,
não é?
Que há um viés para só publicarmos resultados considerados positivos, mas depois nós temos
de perceber que a carreira de um cientista, quando digo carreira, quer em termos de posições
académicas ou de cargos académicos, quer em termos de financiamento para a sua investigação,
está muito dependente das publicações e está dependente dessas publicações a vários
níveis.
Podemos pensar, digamos, em várias dimensões do problema.
Uma é o número de artigos, não é?
Portanto, há uma tendência a valorizar quem publicou muito numa determinada área.
Isto faz com que as pessoas façam, digamos, fatiem aquilo que vão publicando em muitos
artigos para criar uma ideia de um grande corpo de conhecimento na área em que os próprios
estão envolvidos.
Nuno Barbosa Morais
Portanto, isto é imediatamente um fator para baixar a qualidade do que é publicado, porque
primeiro há uma pressa em publicar, portanto, as pessoas acabam por ser, de forma não intencional,
mais negligentes com o que lançam para a publicação.
Como há uma avalanche de artigos, há uma indisponibilidade de tempo dos revisores para
fazerem uma boa revisão, portanto, a qualidade da revisão baixa.
Há também o aparecimento de revistas chamadas revistas predatórias, não é?
Revistas que, desde que pagas, publicam o que tu quiseres e tu despachas o assunto,
colocando na literatura um artigo que não foi bem revisto.
Portanto, esse é um problema e aqui eu ainda poderia, nós ainda poderemos, de compor-no
mais, no caso da biologia, por exemplo, a ordem dos autores conta.
E, portanto, normalmente assume-se que o último autor coordenou o estudo, o primeiro autor
foi quem fez a maior parte do trabalho e depois a ordem dos autores vai das pontas para o
meio por ordem de crescente ou de quantidade de trabalho ou de grau de senioridade nos
artigos.
E são muito mais valorizados, numa fase junior, o número de artigos como primeiro autor e
numa fase sénior, os artigos como último autor.
Por outro lado, há a questão do impacto dos artigos.
Tu podes me dizer "ah, tu publicas muitos artigos, mas se forem uma porcaria, ninguém
te os vai valorizar".
E então, como é que nós medimos se um artigo é bom ou não?
E o que acontece é que há duas formas.
Uma é olharmos para o fator de impacto da revista onde é publicado.
Portanto, a Maria Mota explicou isso bem, não é?
Há revistas que têm um prestígio muito maior.
A Nature Science.
A Nature Science, no nosso caso a Cell também.
E, portanto, tu almejas publicar numa dessas grandes revistas porque coloca-te a tal medalha
ou tal selo de impacto no teu trabalho.
Mas, obviamente, voltamos à conversa inicial, isto é um estímulo a exagerar a importância
do teu trabalho e o impacto.
Então, não só esta avalanche de artigos, mas também esta questão do fator de impacto
da revista em que se publica fez com que se pensasse "bom, vamos então medir o impacto
de cada artigo pelo número de citações".
Ou seja, pelo reconhecimento pelos pares.
Aliás, criou-se uma métrica chamada o H-Index, que basicamente procura este equilíbrio entre
publicares muito e bem, não é?
Teres bastantes artigos, muitos citados.
E porque se tu fizeres uma análise de citações na literatura, um terço dos artigos nunca
são citados e mais de metade são citados por aí uma vez e provavelmente são citados
por um amigo ou pelo próprio.
E, portanto, o que acontece…
É uma distribuição de power, não é?
É uma distribuição de…
Exatamente, é uma coisa muito próxima disso.
O que significa que há uma minoria de artigos que são considerados relevantes.
Portanto, há muitos artigos irrelevantes.
E então, passou a haver uma preocupação de estimular as pessoas a produzirem artigos
que de facto venham a ser citados porque são sólidos e porque têm descobertas reprodutíveis,
etc.
Mas, obviamente, que isto também criou fenómenos de cartel entre autores e revistas, porque
obviamente, normalmente, os editores das melhores revistas…
Não estou a falar dos editores profissionais que são contratados pelas revistas, mas,
de determinadas vistas, têm uma equipa editorial alargada de cientistas de nomenária que ajudam
neste processo de selecção dos melhores artigos.
E, portanto, obviamente…
Uma espécie de conselho consultivo, não é?
Uma espécie de conselho consultivo, sim, exatamente.
E na escolha, por exemplo, de escolher quem são os melhores revisores para um artigo,
etc.
Portanto, todo este trabalho também gera, dá poder a quem está numa posição de editor
ou de revisor.
Até, aliás, é muito comum submeter-se um artigo para revisão e, com base nas revisões,
saber quem foi o revisor, porque te pede para citar, está a faltar a citação ao seu próprio
artigo.
Ah, muito bom.
Este tipo de cartéis.
Portanto, os estímulos à publicação, neste caso, estão associados precisamente a isto,
é que a tua carreira depende do número e do impacto e das citações dos teus artigos,
o financiamento para a tua investigação também depende deste teu currículo e, depois, isto
gera círculos viciosos, porque o que passa a acontecer é que tu entras naquilo lá que
se chama efeito Matthew de Mateus, não é?
Que é da parábola dos talentos de São Mateus, que é "os ricos ficarem mais ricos".
Ou seja, publicaste na Nature, às tantas consegues uma posição académica mais elevada
e de financiamento, entras na Elite e o que passa a acontecer é que quem quer entrar
no clube dos ricos, novamente, passa a ter estímulos perversos para exagerar os seus…
Sim, para tentar dar o máximo, arriscar mais.
Arriscar mais porque não tem nada a perder.
E, ao mesmo tempo, deixas de ter um level playing field, não é?
Nuno Barbosa Morais
Aliás, eu ia falar nisso porque aqui há dois aspectos muito interessantes.
O primeiro é que tu podes argumentar que há alguma correlação entre o mérito, a
qualidade científica dos cientistas e o sucesso que alcançam a este nível.
E há, obviamente, mas não é perfeita.
E há estudos que mostram que, em candidaturas a financiamento por parte, digamos, de cientistas,
quando se faz a sua seriação com base na qualidade que foi atribuída pelos revisores,
mais ou menos no terço mais bem classificado, não há grande associação entre a seriação
e a produtividade futura.
O que é que isto quer dizer?
Quer dizer que há um grupo de cientistas muito fortes, cuja qualidade não é disto nível,
e agora imaginarmos…
Não consegues prever, por aí sim, muito bem.
Não consegues prever com base nessa seriação.
Imagina um cenário em que 30% dos candidatos são realmente muito sólidos, mas só há
dinheiro para 15%.
O que se mostra é que é extremamente injusto e mais valia tirar à sorte quem, do terço
melhor, recebe financiamento porque o que acontece é que esta percepção de que, mesmo
entre os melhores, há uma seriação de mérito, novamente incita o cientista, quando prepara
a candidatura, a trabalhar todos os aspectos que acham que, para lá da qualidade científica
e da robustez do método, podem criar nos revisores uma percepção para ser selecionado.
Portanto, novamente um estímulo a exagerar o impacto, etc.
Voltando a esta questão, este efeito de Mateus dos Ricos ficarem mais ricos, isto foi cunhado
pelo sociólogo Robert Martin, mas ele tem um bocado associado um viés, que aliás foi
bem descrito pelo Melvin Lerner, que era o pai da psicologia da justiça, de nós sermos
muito influenciados pelos sinais exteriores de sucesso.
Nós avaliarmos o mérito relativo, neste caso dos cientistas, pelos sinais exteriores
de sucesso prévio que têm.
Usando essa heurística, no fundo.
Usando essa heurística, exatamente.
E isto cria o tal efeito de oligarquia de dinastia em ciência, que é, se eu conseguir
fazer o doutoramento com um professor famoso de Harvard, provavelmente consigo publicar
na Nature e quando for concorrer ao emprego seguinte, vou artilhado com sinais exteriores
de que pretenso ao clube dos ricos e, portanto, vou ser...
Dinastia é um melhor termo do que...
É, aliás, há um termo que eu ainda gosto mais que é pedigree.
Pedigree, sim.
Porque se tu fores a uma conferência e fizeres uma sondagem informal a investigadores a transitar
para a independência e lhes perguntares qual é que eles acham que é o fator que mais
contribui para o sucesso nesse processo, eles dizem sempre a palavra pedigree.
E eu posso dizer pessoalmente que beneficiem muito do pedigree das pessoas com quem trabalhei
em determinadas fases da carreira.
E isto é bastante perverso.
Aliás, o outro exemplo clássico é a infalibilidade dos prémios Nobel, não é?
O endeusamento de quem recebe o prémio Nobel.
E, na minha ótica, a vantagem, ou seja, o mérito do prémio Nobel é chamar a atenção
para a descoberta.
Mas as pessoas concentram-se muito na pessoa.
E isto é normal porque nós tendemos sempre a procurar uma pessoa que simbolize qualquer
coisa, mas depois acabamos por lhe atribuir uma autoridade exagerada.
No exemplo da pandemia tivemos o caso do virologo Luc Montagnier, que faleceu recentemente, não
é?
Que recebeu o Nobel por causa do vírus do HIV, mas que fez uma série de afirmações
durante a pandemia que não tinham qualquer suporte científico.
Mas, por ser um Nobel ainda por cima em virologia, foi considerado como uma autoridade e foi
muito… as suas opiniões foram muito usadas, até por, vamos supor, por antivaxxers, como
quase dando um selo de validade científica, porque até aquele Nobel diz.
Isto é normal porque os cientistas são humanos, alguns são vaidosos e, para além disso,
obviamente que se tu começas a ser mais mediatizado, começas a ter mais prémios, mais reconhecimento,
passas a ser visto como uma autoridade e enviesas a percepção que as pessoas têm de ti.
Uma das preocupações, como formador de jovens cientistas que eu tenho, é quando
assistimos a um seminário por alguém já com grande prestígio na área, é chamar
a atenção para os meus alunos de um espírito crítico em relação ao escrutínio rigoroso
do que vocês estão a ouvir no seminário, não deve baixar porque alguém é mais famoso.
Recentemente tivemos no Iamiam um seminário de alguém já com uma remotação forte na
área que arrancou o seminário, ao segundo ou terceiro slide, tinha uma análise completamente
ilegítima de dados, por negligência, não por má fé, mas que eram aqueles resultados
falsos eram a base de uma história incrível.
Ou seja, ele construiu a história toda por cima disso.
Construiu uma história fantástica e no final, sobretudo, os cientistas mais jovens que idolatravam
um pouco aquela pessoa, estavam entusiasmadíssimos com a história e depois eu comecei a fazer-lhes
perguntas sobre aquele slide e rapidamente o castelo de cartas ruiu.
Tudo isto que eu estou a dizer é muito difícil de concretizar, não é?
Nós estamos sujeitos a viéses, mas este efeito de atribuirmos mérito com base
nos sinais exteriores de sucesso e não numa avaliação criteriosa das valências é um
efeito que também está presente em ciência.
José Maria Pimentel
Sim, sim. No fundo há aqui um problema que permeia tudo isto que é um problema de, é
um desafio de informação e de transmissão da informação, não é?
Isso está presente na revisão pelos pares, não é?
No fundo é uma maneira de perceber se aquela informação está correta ou não está correta,
está presente na expressão para publicar e publicar várias vezes e publicar coisas
que deem mais nas vistas, não é?
E tudo isto também está presente neste caso, por exemplo, de essa heurística que nós usamos.
Usamos-la porque ela é útil, não é?
É muito mais rápido de tu pensares "Ok, este tipo, eu conheço, eu sei que ele é um bom cientista,
vou ler o que ele escreveu" do que teres que ler de fio a pavio determinado artigo para
perceber se ela é válida ou não é.
Tu não tens tempo a ler tantos artigos por dia, não é?
Não, não, e é só problema.
Agora, na ciência moderna isso depois tem uma série de problemas, não é?
Porque rapidamente, ou seja, tens que arranjar métodos que permitam combinar da melhor forma
a incerteza que existe sempre na qualidade da informação, mas garantindo que pelo menos
minimizas os maiores estragos, não é?
Exatamente.
É isso.
Olha, é um bom ponto para nos encaminharmos para o fim da conversa que já vai longa.
Eu não sei se tens mais alguma sugestão de melhorias do sistema, não é?
No fundo já falámos aqui, enfim, parte delas são quase uma questão de mentalidade, não é?
E de remoção de alguns incentivos perversos do sistema.
Há outro aspecto que tu falaste, que eu acho que é de tal vez dos mais importantes.
E que acho que já tem feito o seu caminho de publicar também os resultados negativos.
Ou seja, não só os resultados estatisticamente significantes, mas também os negativos.
Depois há também até, eu não sei se isso já é verdade em todo lado, mas aquela obrigatoriedade
de registar experiências.
Exatamente.
De maneira a que depois não possas ir só publicar de novo aqueles que foram estatisticamente
significantes, mas mesmo que não publiques os resultados não estatisticamente significantes,
há uma espécie de repositório oficial das experiências que permite ir perceber o que é que...
Nuno Barbosa Morais
Mas eu ia até argumentaria que não só deves fazer sempre o pré-registo do que vais fazer,
mas se trabalhas com o dinheiro ou as amostras de outros, deves publicar o que foi feito
qualquer que seja o resultado.
Claro, sim, sim, sim.
Pronto, ou seja, deve haver essa obrigatoriedade, é uma obrigação moral, mas deve ser formalizada,
de tudo o que vais fazer com dinheiro ou material biológico de terceiros...
Deve ser sempre publicado.
Deve ser sempre publicado, mesmo que corra mal.
Nuno Barbosa Morais
Sim, não, acho que podemos só rapidamente ir às principais fontes.
Na parte das publicações, para além de permitirmos a publicação dos chamados resultados negativos,
uma parte da solução que está a ser estudada é que a revisão por pares seja feita à montante
da escolha da revista para a qual vai o artigo.
Ou seja, neste momento já estes repositórios dos chamados preprints, que é os rascunhos do artigo,
ainda antes de serem revistos por pares, já são tornados públicos e haver eventualmente,
já existe, eu vou dar um exemplo, chama Review Commons, que é financiada por algumas agências financiadoras,
que é uma agência, não é uma agência porque não é comercial, mas é uma entidade que centraliza
a revisão de artigos, eu já revi artigos para a Review Commons, sem saber para que revista vai o artigo,
porque a ideia aqui é que tu revejas os artigos apenas e só com base na sua qualidade científica
e a qualidade científica não depende do resultado, depende da robustez.
É a significância, não é?
Não depende de como bem está calculada.
Significância não no sentido estatístico só, porque a questão, a minha ideia é que a qualidade científica tu vês,
sobretudo no desenho experimental.
Claro, claro, ou seja, tudo o que alimenta a significância e a maneira como ela está calculada.
Nuno Barbosa Morais
O impacto entra a seguir e não deve ser o revisor que toma decisões a esse nível.
E portanto, já há quem proponha, e estou a fazer experiências nesse sentido, por exemplo isto, ou seja,
tu tornares o teu trabalho público quando vai para a revisão por paros e depois ides publicando essas revisões
e ides atualizando o artigo e quando tu, autor, com o beneplácito dos revisores, achas que está pronto,
depois, no fundo, haver um leilão entre revistas para quem é que fica com os artigos que considerarem maior impacto.
Mas, pelo menos, não eliminas completamente estas questões de prestígio, mas já matas, pelo menos,
grande parte do viés no processo de revisão.
A Maria falou-te do outro exemplo que é, eventualmente, agências de financiamento que estão a decidir
não permitir a publicação de trabalhos que são financiados por essas agências em editoras com fins lucrativos.
Nuno Barbosa Morais
Sim, mas a questão é exatamente essa, é que esta ideia da descoberta bombástica que vai evolucionar,
o que estas revistas procuram fazer é, vamos garantir que este artigo é revisto pelos principais especialistas na área.
E a partir do momento em que três ou quatro especialistas na área dizem "o artigo está bom",
os editores da revista não têm conhecimento científico suficiente para duvidar.
Pronto, e isto aconteceu, eu creio que discutiste isto com a Luísa Lopes, o caso da hipótese da ação da beta-amiloide na doença de Alzheimer.
O artigo original também é publicado, é um artigo que estabelece uma relação funcional entre a acumulação de placas beta-amiloide
nos cérebros das pessoas com doença de Alzheimer e a própria doença, em termos funcionais,
e que se demonstrou muitos anos depois e muito investimento depois, que era uma fraude,
mas que não só na altura passou a revisão por pares, como foi muito, muito citado nos anos subseqüentes,
porque toda a comunidade gostava daquela hipótese, porque parecia uma hipótese plausível.
É verdade que eu diria que a hipótese era muito plausível. Neste momento não há evidência suficiente para que seja válida,
mas era plausível. Mas o que é demonstrável pelo grau de exigência destas revistas é que,
efetivamente, provavelmente, há menos falsos positivos nestas revistas do que noutras em que o processo é menos exigente.
Mas, ao mesmo tempo, há mais exagero...
Nuno Barbosa Morais
Não, e mesmo os verdadeiros positivos parecem ser mais positivos do que o que são,
pondo a coisa nesses termos. Em relação a outras coisas que a comunidade pode fazer,
eu poderia dizer que há uma parte que tem a ver também com as agências de financiamento.
Já discutimos a ideia do que se chama aleatorização focalizada, que é, no fundo,
decidir que entre os melhores se sorteia o financiamento.
Faz uma primeira triagem.
Faz uma primeira triagem e vai. E, eventualmente, também tornar,
que me parece uma das coisas mais perversas na forma como apoiamos a ciência neste momento,
há um foco muito grande no indivíduo, o que leva à tal hiperspecialização e, portanto, procurarmos...
E a cedar nas vistas, não é?
Sim, a cedar nas vistas, procurarmos tornar o financiamento mais coletivo.
Da parte dos empregadores, por exemplo, as universidades, os institutos de investigação,
dar mais peso à boa cidadania científica de quem é recrutado, nomeadamente,
procurar perceber qual é a solidez do trabalho feito, quanto investimento e tempo
é que a pessoa dedica a colaborar, por exemplo, e, num certo sentido, a servir a comunidade.
E, aqui, sem querer ser advogado em causa própria, também promover mais pessoas
com uma formação mais transversal ou interdisciplinar, que muitas vezes não têm
uma especialidade tão bem definida ou não são famosos por um tema sexy muito específico,
mas que permitem fazer todas estas pontes.
E, talvez, já a pensar um bocadinho no futuro, há dois aspectos que eu acho que vão ser
muito importantes aqui.
O primeiro são também os algoritmos de inteligência artificial a apoiar o processo de revisão.
Já há algoritmos que automatizam a verificação estatística dos artigos.
Há um que se chama StatCheck, mas há um que eu gosto particularmente, que se chama Grim,
que está associado à granularidade das médias.
O que é que eu quero dizer com isto?
Se tu fizeres a média de quatro números inteiros, ela vai ser sempre múltipla de 0.25, de um quarto.
Ora, este algoritmo detecta médias inconsistentes com esta granularidade.
E, portanto, já há vários estudos…
É um algoritmo de metaciência também.
É um algoritmo de metaciência.
Um outro exemplo, agora muito presente, principalmente para cientistas nacionais
na área biomédica, a Fundação Lacaixa, que é um dos nossos mais importantes financiadores,
no último concurso para financiamento de projetos em investigação biomédica,
implementou esta fórmula de que há um algoritmo, um pouco à moda do ChatCPT,
baseado em estrutura de linguagem natural, mas específica de linguagem biomédica.
Aliás, as bases se chamam… acho que se chamam BioBert e BioElectra.
Aqui não é importante.
Mas o que é que este algoritmo faz?
Vai às caixas de texto das candidaturas.
Isto é muito importante.
Ele vai ignorando o currículo dos candidatos e vai classificá-los.
E a Lacaixa vai… o que vai fazer é dizer que o pior terço das candidaturas
ainda vão passar por um crivo humano, mas em princípio não são elegíveis.
E é o algoritmo que faz essa primeira triagem.
E como é que o algoritmo foi treinado?
O algoritmo foi treinado com as classificações atribuídas nos anos anteriores.
Ou melhor, nos anos anteriores, exceto o ano passado.
O ano passado se distorce e, de facto, a classificação atribuída pelo algoritmo
batia muito certo com as dos revisores humanos.
Portanto, pode substituí-los, embora partilhe os mesmos vieses,
Nuno Barbosa Morais
É isso que eu queria dizer.
Ou seja, estes algoritmos vão herdar uma parte dos vieses humanos,
mas, por exemplo, este modelo da Lacaixa há, pelo menos, a garantia
de que o algoritmo não está enviesado pela leitura do currículo.
Agora, tu podes sempre argumentar que as pessoas mais habilidosas
e com melhores currículos também já desenvolveram,
ainda que não conscientemente, formas de escrever que também
as favorecem, certamente.
E, aliás, o que nos leva também à possibilidade de começarmos
a fazer isto passar para o domínio da revisão por pares
de artigos científicos.
Neste momento fala-se muito do chat GPT para gerar texto,
ou seja, estes algoritmos que já permitem escrever coisas
que são bastante eloquentes, aliás, que têm o perigo
de tornar mentiras convincentes, muitas vezes.
Mas nós podemos começar a pensar que, tal como a Lacaixa fez
para o financiamento, as revistas começam a apostar
nestes algoritmos que dissecam a linguagem e, digamos,
a transformam numa estrutura de conceitos e depois procuram
inconsistências nesta estrutura.
Nuno Barbosa Morais
Aliás, o que vai ser curioso, pode haver depois um efeito perverso
que é depois nós desenvolvermos algoritmos para enganar
o algoritmo de coisas, mas o que vai ser curioso aqui
é que... - Uma corrida às armas.
Exatamente, arms race, uma corrida às armas.
Mas o que vai ser curioso aqui é que, e poderá ser muito produtivo,
é que mesmo o cientista corra o mesmo algoritmo
antes de submeter o artigo e sabe automaticamente
ou quase automaticamente, aliás, há um antigo colega meu,
o Florian Markovits, que advoga que a melhor forma
de resolvermos isto é convencermos os cientistas
mais ambiciosos, egoístas e, digamos, com motivações mais perversas
que isto também é bom para eles, porque lhes poupa tempo,
porque lhes melhora a reputação, etc.
Portanto, este é um aspecto muito importante,
e só como nota colateral, que mesmo quando a comunidade
está ciente que há um problema, nós temos que perceber
que quem tem poder de decisão, normalmente, são colegas
que beneficiaram, chegaram a cargos mais elevados,
que beneficiaram do sistema, e embora sejam conscientes
do problema, instintivamente atribuem-nos a outros
e não têm uma perceção...
E têm incentivos para não querer mudar o status quo.
E têm os incentivos, mas nem é só por aí,
provavelmente não têm sensibilidade para a natureza do problema.
Porque não têm essa experiência.
Porque não têm essa experiência.
Só para fechar, a resposta à tua pergunta,
em relação a coisas que podemos fazer e pensando agora
no futuro, portanto, para além da questão dos algoritmos,
tem a ver com algo em que a Maria Mota também tocou
quando conversou contigo, que é uma espécie de mudança
geracional nas motivações e nos interesses dos cientistas.
Há estudos, estes são americanos, portanto, eu não quero
extrapolar para Portugal, que sugerem que aquilo que são
agora os jovens académicos, eu diria que da idade
dos nossos estudantes de doutramento,
vêm com uma pior saúde mental, no sentido em que vêm
mais pressionados para obter resultados, com mais incerteza
em relação ao futuro, mas também muito mais cientes
dos problemas de saúde mental e atribuir muito menos estigma
a esta questão. E porquê é que eu estou a falar
na questão da saúde mental dos jovens cientistas?
Porque, obviamente, eles vão ser muito mais reativos
à perceção de injustiças em carreiras científicas,
na atribuição de financiamento, etc.
E, portanto, eu aqui vejo duas formas de utilizarmos
esta alerta maior nas novas gerações de cientistas
e o facto deles já não tolerarem injustiças e serem
mais contestatários a coisas que não estão bem,
e espero que continuem ativos em questões de,
digamos, do clima, etc.
Eu acho que há aqui duas formas de ajudar.
Uma que tu partilhas muito comigo, que é
instituir formação em pensamento crítico,
ou seja, isto é algo que é, claro, neste momento
a maioria dos cientistas nunca estudou a filosofia
da ciência, nunca discutiu verdadeiramente
estes viesses cognitivos e o impacto que tem
no clima, como abordam estatisticamente os problemas, etc.
Portanto, eu advogo que devemos começar desde cedo,
portanto, formar os jovens cientistas em pensamento crítico.
E depois é haver um segundo aspecto mais indireto,
é uma vez feita esta formação e aproveitando
esta maior preocupação deles com fazerem um trabalho
de que gostem, sejam felizes, etc.,
que alguns cientistas sénios que estejam mais preocupados
com isso, começam a fazer uma espécie de statement,
ou seja, que determinados
laboratórios digam "nós não vamos publicar".
Vamos dar um exemplo. Vamos dar um exemplo e não vamos publicar
em revistas de editoras com fins lucrativos,
mas o que prometemos é rigor, boa formação
em espírito crítico, liberdade académica, etc.
E o que é curioso é que se tu for às páginas
web dos laboratórios de investigação, incluindo a do meu
laboratório, que ainda não tem lá nada disso, nenhuma tem
este tipo de compromisso. E o que acontece é que
se nós tornarmos explícito este tipo de compromisso,
o que vai acontecer é que no processo de
recrutamento dos jovens cientistas vamos estar a fazer um
filtro, no sentido em que vamos só
ter connosco aqueles que querem realmente fazer
a ciência por bons motivos, mas vamos também dar
uma ferramenta a todos para, por exemplo,
questionar os cientistas mais sénios de porquê que as coisas
são feitas como são. Eu converso muito, desde
há muito tempo, ainda quando estava fora que vou conversando com estudantes
de doutoramento, por exemplo, e quando vejo
alguns insatisfeitos perguntados porquê, e muitas
vezes a motivação, ou o motivo para a insatisfação
é esta sensação de que
quase um bocado um síndrome do impostor associado a sentir
que o que estão a fazer não é muito sólido. E normalmente eu pergunto assim,
"Então, e já questionaste o teu orientador sobre isso?"
E eles dizem-me, "Sim, sim, mas ele respondeu-me que são as leis
do jogo, não é? E que tem que ser assim." Ora, se
de antemão souberem que não, e atenção, há colegas meus
sénios que acham que os melhores cientistas
também são aqueles que jogam melhor o jogo, ou que acham
que para ser bom cientista tem que ser hipercompetitivo de atitude,
se nós conseguirmos, tivermos exemplos
de que não é necessariamente assim, eu acho que vamos começar
a ter os... A conseguir reverter. A conseguir reverter e a ter os melhores
cientistas a trabalhar mais de acordo, digamos que
os princípios deontológicos do que deve ser a atividade de um cientista.
Nuno Barbosa Morais
teria muitos, não é? Mas o primeiro, e esta é a
minha recomendação mais forte, chama-se
"The Drunkard's Walk", do Leonardo Melodinao. Infelizmente,
acho que há uma tradução para o português do Brasil,
"O Caminhar do Bêbado", creio, mas que não é fácil arranjar, portanto
é muito mais fácil e mais barato arranjar em inglês.
E o título deste livro é uma analogia com o
"Random Walk", o chamado "Movimento Brownian", que é um conceito
da física estatística. É uma distribuição aleatória, não é? Sim,
é que nós, no fundo, esta é a ideia do movimento de uma partícula,
por exemplo, num gás a chocar com outras partículas, é que a ideia
é que nós não conseguimos prever o comportamento
de cada partícula individualmente, mas conseguimos
modelar estatisticamente o comportamento do coletivo, e daí que vêm as equações
e etc. Mas aqui, a ideia do livro é mostrar,
no fundo, leva-nos pela história da teoria das probabilidades
e da estatística, sempre em paralelo
com os nossos viesses cognitivos e em como
nós tendemos a ver ordem e
padrões em dados aleatórios. É aquilo que tu falavas há bocadinho.
Portanto, este livro é acessível em termos conceptuais
a toda a gente, portanto não precisam de formação matemática
nem nenhuma. E para aqueles que não souberem inglês,
apesar de tudo, há um livro bastante citado no The Drunkard's Walk
que está traduzido em português, que é o Pensar Depressa Devagar
do Daniel Kahneman sobre os viesses cognitivos.
O segundo livro que eu recomendo, que é... - De toda a maneira como o meteste aí,
Nuno Barbosa Morais
com a culpa de estar a recomendar-vos em inglês.
- Não há limites. - Não, não, não. E aqui a culpa manifesta-se também na minha
segunda recomendação, que é para quem tiver interesse
em metaciência e nas causas deste problema
da reportabilidade, chamado Science Fiction do Stuart Ritchie.
Também não está traduzido em português, como eu disse.
E em que, no fundo, é feita uma viagem pelas
causas dos problemas de reportabilidade. Aliás, o Stuart
Ritchie divide-as em quatro domínios. A fraude,
a negligência, o hype, portanto o exagero
e o que é para mim mais importante, que é o viés.
No fundo, são estes viés que estivemos a falar. - Olha, e já agora
José Maria Pimentel
vou recomendar-me também desta vez, que nós já falámos, que é um livro
que tem várias ligações com esses e com muito daquilo
que nós falámos aqui. Tem um título provocador, chama-se "Calling Bullshit".
O subtítulo é, enfim, agora vou traduzir, é "Arte do Ceticismo
no Mundo Dominado por Dados". É de dois professores da Universidade
de Washington, é o Carl Bergstrom e o Javin West.
E, na verdade, aquilo teve origem numa cadeira que eles davam
na faculdade, e que aliás está no YouTube, embora o livro seja
melhor do que a cadeira, porque está mais bem tratado, ou seja, aquilo depois foi burilado.
E é um típico que toca, enfim, toca várias coisas que nós falámos aqui hoje.
Da Bullshit num sentido mais abrangente de
fake news até à fraude, ou pelo menos à negligência
e aos vieses que entram no domínio da ciência.
Olha, Nuno, foi, bem, como eu esperava, uma conversa
bem longa e, sobretudo, enfim, onde
tocamos numa série de coisas e mesmo assim ficaram coisas para falar. - Para falar, é verdade.
- Este tema prestou-se a isso. Obrigado. - Ah, muito obrigado eu.
Este episódio foi editado por Hugo Oliveira.
Contribua para a continuidade e crescimento deste projeto no site
45grauspodcast.com. Selecione a opção "Apoiar"
para ver como contribuir, diretamente ou através do Patreon,
bem como os benefícios associados a cada modalidade.