Deming, dados e estudos observacionais: um processo fora de controle que precisa ser corrigido

Este artigo de S. Stanley Young e Alan Karr faz uma crítica direta ao modo como muitos estudos observacionais são produzidos, interpretados e publicados. A ideia central é simples, mas incômoda: quando uma associação observada em estudos desse tipo é testada depois de forma mais rigorosa, ela frequentemente não se confirma. O artigo sustenta que o problema não está apenas em erros isolados de pesquisadores, mas em um sistema inteiro de produção científica que estimula resultados chamativos, valoriza significância estatística isolada e oferece pouco controle real sobre vieses e decisões analíticas.

Logo no início, os autores lembram exemplos de associações que ganharam manchetes e depois se mostraram frágeis ou incorretas, como ligações entre alimentos, estilos de vida e doenças. A crítica deles é dura: segundo o artigo, há evidência suficiente para dizer que muitas alegações vindas de estudos observacionais têm grande chance de estar erradas no sentido de não se replicarem sob teste rigoroso. Esse é o tom de todo o texto.

O dado mais impactante do artigo

A parte mais forte do texto aparece quando os autores apresentam um levantamento de 12 ensaios clínicos randomizados que testaram 52 alegações originadas em estudos observacionais. Segundo a tabela mostrada no artigo, nenhuma dessas 52 alegações foi confirmada na direção originalmente proposta. Além disso, em cinco casos, o resultado estatisticamente significativo apareceu na direção oposta à sugerida pelos estudos observacionais. Os autores usam esse conjunto de exemplos para argumentar que o processo está “fora de controle”.

O artigo também cita outro conjunto de dados: entre 49 alegações de estudos altamente citados avaliadas em análise anterior, 14 falharam totalmente em replicar ou tiveram efeito muito reduzido; dentro do pequeno grupo de seis estudos observacionais dessa amostra, cinco não replicaram, o que equivaleria a uma taxa de falha de 83%. Com isso, o texto reforça a tese de que o problema não seria ocasional, mas recorrente.

Por que isso aconteceria, segundo os autores

O artigo organiza a explicação em três grandes fontes de erro.

1. Testes múltiplos

Quando os pesquisadores exploram muitos desfechos, muitas exposições ou muitos subgrupos dentro do mesmo banco de dados, a chance de aparecer um resultado “significativo” por puro acaso sobe bastante. O artigo usa o exemplo caricatural dos “feijões coloridos” para mostrar como, ao testar hipóteses demais, alguma delas acaba parecendo verdadeira apenas por sorte. Também cita um caso em que o consumo de cereal no café da manhã foi associado ao nascimento de mais meninos, argumentando que esse resultado podia ser explicado por múltiplas comparações em um questionário com muitos itens alimentares.

2. Viés

O texto distingue erro aleatório de erro sistemático. No caso do viés, o problema não é só azar estatístico, mas um desbalanceamento estrutural entre grupos comparados. O exemplo dado envolve pacientes com HIV: indivíduos com risco cardiovascular mais alto foram direcionados a um medicamento específico, o que fazia parecer que o remédio estava ligado a mais infartos, quando parte importante dessa associação podia ser explicada pelo perfil inicial mais grave desses pacientes. O artigo também destaca que perdas de seguimento, fatores não medidos e confundidores não avaliados podem distorcer muito os resultados.

3. Modelagem múltipla

Aqui a crítica é mais técnica, mas o raciocínio é claro. Quando há muitas variáveis possíveis para ajustar, incluir ou excluir termos no modelo estatístico pode abrir um número enorme de caminhos analíticos. O artigo compara isso a um labirinto: depois de encontrar um caminho que leva a um valor de p abaixo de 0,05, sempre é possível construir uma justificativa aparentemente plausível para aquele trajeto. Segundo os autores, isso pode produzir associações estatisticamente “bonitas”, mas cientificamente frágeis. No exemplo do bisfenol A, o texto descreve um espaço analítico gigantesco, com milhões de combinações possíveis entre desfechos e modelos.

O papel dos incentivos científicos

Um ponto importante do artigo é que ele não coloca toda a culpa apenas no pesquisador individual. Inspirando-se em W. Edwards Deming, os autores afirmam que o problema maior estaria no gerenciamento do processo. Em outras palavras, se revistas científicas e agências de fomento premiam novidade, resultados positivos e valores de p pequenos, o sistema passa a empurrar a produção científica para conclusões mais frágeis. O texto chama isso de uma forma de “inspeção de qualidade” tardia: em vez de construir estudos robustos desde o início, o sistema espera o produto final e julga principalmente se ele parece interessante.

A proposta de correção

A solução defendida no artigo combina mudanças técnicas e operacionais. A principal é dividir os dados em dois conjuntos: um para modelagem e outro para teste independente. A análise seria planejada e executada primeiro no conjunto de modelagem, sem acesso ao resultado final do conjunto de validação. Depois, a revista aceitaria ou rejeitaria o artigo com base nessa primeira etapa, e o resultado no conjunto de teste seria publicado como um adendo. Além disso, os autores defendem separação entre a equipe de limpeza dos dados e a equipe de análise, protocolo estatístico escrito previamente, dados públicos e código analítico disponível.

Na visão do artigo, esse “conjunto de validação” funcionaria como um freio real contra descobertas frágeis. Se a alegação não se sustentasse quando testada em dados reservados, tanto autores quanto periódicos ficariam expostos ao erro, o que mudaria os incentivos atuais.

O que este texto realmente permite concluir

O ponto mais importante para o leitor é não exagerar nem para um lado nem para o outro. Este artigo não demonstra que todo estudo observacional é inútil. O que ele faz é apresentar uma crítica forte, documentada e metodologicamente relevante sobre como esse tipo de estudo pode gerar muitas conclusões instáveis quando há múltiplos testes, vieses, liberdade excessiva de modelagem e pressão por publicação. Também é importante notar que o próprio levantamento dos 12 ensaios clínicos é descrito pelos autores como informal, embora abrangente, o que exige leitura cuidadosa.

Ainda assim, a mensagem central permanece muito sólida dentro do que o artigo apresenta: associação observada não é sinônimo de causalidade, e resultado estatisticamente significativo, sozinho, está longe de encerrar uma questão científica. O texto defende que, sem transparência, reprodutibilidade e validação mais rigorosa, parte relevante da literatura observacional continuará produzindo achados chamativos demais para serem confiáveis.

Fonte: https://doi.org/10.1111/j.1740-9713.2011.00506.x

*Leia o artigo completo na newsletter