Um pouco mais sobre voodoo

Há algumas semanas foi postado um texto sob a confiabilidade da ressonância magnética funcional (fMRI). Tenho trabalhado com a análise de dados de fMRI nos últimos anos e gostaria de acrescentar algumas informações que acredito ser relevantes sobre este tema. A grande discussão sobre este assunto veio à tona com o artigo de Vul et al. 2009 (http://www.edvul.com/pdf/Vul_etal_2008inpress.pdf e http://www.edvul.com/pdf/VulEtAl.2009.pdf ) originalmente entitulado “Voodoo correlations in social neuroscience” e posteriormente alterado para “Puzzlingly high correlations in fMRI studies of emotion, personality, and social cognition” a pedido editorial.

Os autores descrevem que o “quebra-cabeça” apareceu quando notaram diversos estudos de neuroimagem apresentando coeficientes de correlação extremamente altos entre a estimativa da ativação cerebral e variáveis comportamentais. Aparentemente, esta magnitude de correlação seria praticamente impossível, considerando-se a variabilidade intraindividual dos mapas de ativação via fMRI e da dos resultados de testes comportamentais. Assim, os autores mostraram (conceitualmente e através de simulações) que dependendo da forma como o dado de fMRI é analisado, o “voodoo” pode aparecer. Este é um problema clássico em inferência estatística e seleção de variáveis denominado “análise circular“ ou “dupla imersão” (double dipping, veja Kriegeskorte et al., 2009, na Nature Neuroscience entitulado “Circular analysis in systems neuroscience: the dangers of double dipping”). Um grande amigo meu radiologista (Dr. Edson Amaro Jr) tem uma descrição metafórica excelente para o problema: suponha que você deseja estimar a altura média do salto de sapos de uma lagoa. No entanto, você seleciona propositalmente apenas os sapos que pulam mais que meio metro para composição da sua média. É evidente que esta análise está enviesada e que a altura média do salto será superestimada.

Dependendo da forma como os dados de fMRI são analisados, este mesmo problema pode ocorrer, caso a análise seja circular. O problema descrito por Vul et al. é o seguinte: em um primeiro estágio são mapeadas as regiões cerebrais (representadas por “voxels”, o equivalente volumétrico do pixel) cuja magnitude do efeito BOLD (sinal medido na fMRI) é correlacionada com variáveis comportamentais. Em um segundo estágio, calcula-se a média dos coeficientes de correlação destes voxels que foram previamente mapeados em uma determinada região de interesse (ROI). Assim, nesta análise circular, somente os “sapos” com pulo mais alto foram incluídos nesta média, induzindo uma superestimativa no coeficiente de correlação médio da ROI. A análise circular deve ser evitada e os próprios autores já mostraram que muitos estudos de fMRI foram feitos de forma robusta e correta. É importante ressaltar que a análise circular não é um problema exclusivo da neuroimagem e tenho certeza de que muitos outros estudos de diversas áreas também apresentam a mesma limitação. Um exemplo: é uma prática extremamente comum coletar diversas variáveis em um estudo. Devido ao grande número de variáveis, alguns pesquisadores primeiramente calculam o coeficiente de correlação de Pearson entre estas variáveis e uma outra variável de interesse. Em seguida, realizam uma análise de regressão linear múltipla incluindo como variáveis preditoras somente as variáveis cujo coeficiente de correlação é estatisticamente diferente de zero. Qual a interpretação dos p-valores dos coeficientes deste modelo de regressão (para a hipótese nula de que o coeficiente é igual a zero), uma vez q as variáveis já foram “filtradas” por um teste utilizando o coeficiente de correlação de Pearson?

É importante ressaltar que este problema nada tem com a fisiologia do sinal BOLD ou com as fórmulas para os cálculos. Em outras palavras, o problema não reside na fMRI ou nas técnicas de análise, mas reside na interpretação dos resultados. Se o pesquisador entende a forma como o dado é analisada, ele sabe das limitações das mesmas e pode fazer uma interpretação adequada dos resultados. Infelizmente, muitos pesquisadores são simples usuários de softwares para análise de dados fMRI sem saber como ele funciona. Novamente, este não é um problema exclusivo da neuroimagem. Grande parte das análises estatísticas é realizada por pesquisadores que utilizam softwares estatísticos e não fazem a menor idéia de como ele funciona ou dos cálculos realizados. Estes softwares acabam se tornando uma caixa-preta “mágica” onde o pesquisador entra com os dados e recebe um p-valor. Note que esta deficiência não é um problema dos softwares em si, mas do uso inapropriado. Em suma, é extremamente importante que cientistas tenham conhecimento básico de estatística e principalmente da interpretação dos resultados de cada técnica, para que possam analisar seus dados adequadamente.

No que cabe a estatística, o artigo de Vul et al. (2009) não trouxe nenhum conceito novo. No entanto este artigo foi importante para lembrar a comunidade científica de que é importante sabermos detalhadamente, o que acontece em cada etapa do fluxograma que vai da formulação da pergunta, passando pelo desenho do experimento, coleta dos dados, análise de dados e obtenção de resultados. Esta é a única forma de realizar a interpretação correta dos resultados experimentais, evitando que algum “voodoo” venha nos incomodar.

João Ricardo Sato
Universidade Federal do ABC

Categorias: Neurociência, Notícias e tags: , , . Para adicionar o texto à sua lista de favoritos, use o permalink.Tanto comentários quando trackbacks estão fechados no momento.

2 Comentários

  1. Enviado em 4 de setembro de 2009 às 11:50 | Permalink

    Caro João,

    Seu texto explica com muita clareza, mesmo para leigos em análise de neuroimagens como eu, a questão em pauta. O uso das evidências urinadas de imageamento cerebral é muito extenso e o impacto visual às vezes ganha mais importância do que o peso factual do dado.

    Especificamente falando, calcular a média somente dos coeficientes de correlação de valor mais elevado em uma determinada área e concluir que a atividade nesta área é altamente correlacionada com a tarefa, é erróneo.

    Em relação a regressão linear múltipla, talvez seja um caso diferente, pois neste quer-se identificar fatores que explicam um certo variável, mas sem tirar uma “média” destes fatores (equivalente aos voxels), se não me engano.

    Mas voltando aos estudos de neuroimagens, acredito que é de maior importância alertar a comunidade acadêmica sobre a atenção redobrada que deve ser dada aos fundamentos e uso de estatísticas antes de aceitar como factuais “evidências” e conclusões derivadas. O fenômeno da aceitação de um volume tão grande de papers com graves falhas metodológicas em períodos de renome representa a falta de conhecimento ou atenção dos revisores, pressa e descuido por parte do editores em aceitar manuscritos, e possivelmente manipulação de metodologias por parte de pesquisadores ambiciosos.

    Neste sentido, este tipo de debates é importante para mandar um aviso e alerta à toda a comunidade científica de tal forma que praticas específicas não serão mais aceitas.

    Grande abraço,
    Yossi

  2. Peter
    Enviado em 5 de setembro de 2009 às 17:36 | Permalink

    Um excelente post, João. Muito interessante, este problema. É simplesmente estupefaciente que levou dez anos ou talvez mais para alguém descobrir erros conceituais de tal tamanho em papers que passaram revisores em Nature e Science. O artigo do Vul et al mostra o perigo do fetiche de números, sejam valores-p ou correlações, como critério para publicação. Adorei o fato que começaram com a avaliação do maior valor que se pode esperar de uma correlação entre uma medida comportamental e um sinal BOLD, baseado na confiabilidade das duas variáveis. Este é um tipo de análise que deveríamos fazer mais, como também a meta-análise que preferivelmente também inclua estudos que não levaram a publicação.
    Sobre a regressão múltipla, concordo que é preciso tomar cuidado para evitar ‘double-dipping’. Só que acho que a situação é um pouco mais complicado – tanto incluir quanto excluir uma variável indevidamente da análise distorce os valores-p dos outros fatores.
    Voltando para Vul et al, esta polêmica me fortalece ainda mais na idéia que nunca podemos deixar de investir no ensino da estatística em cursos que preparam para atuação em atividades científicas. Precisamos atualizar o conteúdo das disciplinas metodológicas para ficar a par com o tipo de dados conhidos no século 21: maciçamente multivariados; afinal, vamos concordar, grande parte das disciplinas relacionadas a estatística ficou presa nos anos 60. Precisamos de professores talentosos que estimulem o pensamento crítico sobre análise de dados além da saída de um programa de análise estatística. E finalmente, precisamos de mais esforços para facilitar o diálogo entre os que desenvolvem e avaliam métodos (estatísticos teóricos e aplicados) e os usuários destas técnicas (pesquisadores empíricos).

  • coNeCte é o blog da Sociedade Brasileira de Neurociências e Comportamento
  • ________________________________________________________ AGORA É A VEZ DA FALAN ! Começamos hoje (6/2) a receber sugestões de atividades organizadas por brasileiros no I Congresso da FALAN em Cancún, México, que ocorrerá entre 4 e 9 de novembro de 2012. O prazo de envio encerra-se em 10 de março. Utilize o formulário em anexo e envie-o para sbnec@sbnec.org.br . Saiba mais aqui. Prezad@ Sóci@, contamos com sua participação! A Diretoria (06/fev/2012). ________________________________________________________
  • Leia nossas postagens!

    NEUROSFERA é reunião das contribuições dos neuroblogueiros que gostam de fazer resenhas, opinar e divulgar novidades na linguagem da blogosfera (qualquer semelhança com o artefato homônimo que pode surgir em culturas de células-tronco não é uma coincidência).

    Basta clicar na imagem ou aqui.
  • Área de Sócios

  • Visitantes desde 25/22/2011