Digital human figure examining holographic neural network with labeled nodes and connections

ERA — um sistema de experimentação empírica.

Um resumo do artigo sobre o ERA — Empirical Research Assistance, publicado na Nature em 19 de maio de 2026. O artigo apresenta o ERA como um sistema de IA voltado para ajudar cientistas a produzir software empírico especializado, isto é, programas criados para resolver tarefas científicas avaliáveis por alguma métrica objetiva. A ideia central é que parte importante da pesquisa científica contemporânea depende de software: modelos, simulações, previsões, integração de dados, análise de imagens, processamento de sinais etc. O problema, segundo os autores, é que criar esse software costuma ser lento, manual e dependente de muitos ciclos de tentativa e erro. O ERA surge justamente para automatizar parte desse processo.

A tese do artigo é forte: quando um problema científico pode ser transformado em uma tarefa pontuável — uma scorable task —, um sistema de IA pode explorar muitas soluções possíveis, escrever código, testar esse código, medir o desempenho e melhorar iterativamente. O ERA não é apenas um chatbot que responde perguntas; ele é um sistema que combina modelo de linguagem, geração e reescrita de código, execução em sandbox, métrica de qualidade e busca em árvore para encontrar soluções melhores.

O problema que o ERA tenta resolver

Os autores partem da constatação de que o “software empírico” é central para várias áreas da ciência. Eles lembram que avanços como teoria do funcional da densidade, dinâmica molecular e previsão de estrutura de proteínas dependem de software científico capaz de modelar sistemas complexos. Mas escrever esse tipo de programa é difícil, demorado e muitas vezes guiado por intuição, atalhos e escolhas práticas, não por uma exploração sistemática de alternativas.

O ERA tenta transformar esse processo em uma busca automatizada. Em vez de depender apenas de uma equipe humana testando uma sequência limitada de ideias, o sistema pode gerar muitas versões de código, avaliar cada uma e decidir quais caminhos merecem ser aprofundados.

Como o ERA funciona

O funcionamento básico é o seguinte: o sistema recebe uma descrição do problema, os dados relevantes e uma métrica de avaliação. Um LLM escreve código Python; esse código é executado em um ambiente controlado; o resultado é pontuado; e o sistema usa essa pontuação para decidir qual versão do código deve ser modificada em seguida.

O diferencial está na busca em árvore. Em vez de simplesmente pedir mil respostas independentes ao modelo e escolher a melhor, o ERA mantém uma árvore de candidatos. Cada nó da árvore é uma tentativa de solução. O sistema equilibra dois movimentos: explorar soluções novas e aprofundar soluções que já mostraram bom desempenho. Quando um caminho para de melhorar, ele pode voltar para outro ponto da árvore e tentar outro ramo.

Outro ponto importante é que o ERA não trabalha apenas com código “inventado” do zero. Ele pode incorporar ideias de pesquisa externas, vindas de artigos científicos, livros especializados, resultados de busca, Gemini Deep Research, AI co-scientist ou recombinações de métodos anteriores. Essas ideias entram no prompt e orientam a geração de novas versões de software.

Tarefas testadas no artigo

O ERA foi testado em várias áreas diferentes, sempre em tarefas que possuem uma métrica clara de avaliação. Entre elas estão: integração de dados de RNA de célula única, previsão de hospitalizações por Covid-19, previsão de séries temporais, segmentação de imagens geoespaciais, previsão de atividade neural em peixe-zebra e solução numérica de integrais difíceis.

Essa diversidade é importante para o argumento do artigo. Os autores querem mostrar que o ERA não é apenas um sistema especializado em uma tarefa, mas uma arquitetura geral para criar e melhorar software empírico em diferentes campos científicos.

Teste inicial: competições Kaggle

Antes dos testes científicos propriamente ditos, os autores desenvolveram e calibraram o ERA em competições do Kaggle. Eles usaram 16 competições “playground” de 2023, com problemas de regressão e classificação. O Kaggle é útil porque possui rankings públicos e permite comparar a performance do sistema com a de muitos participantes humanos.

Nesse benchmark, o ERA superou uma chamada única de LLM, superou também uma estratégia de “best-of-1000” — isto é, gerar mil tentativas e escolher a melhor — e superou o sistema AIDE. Segundo os autores, isso ocorre porque a árvore de candidatos permite manter diversidade, voltar atrás e descobrir saltos de desempenho ao longo da busca.

Resultado em genômica: RNA de célula única

Um dos resultados mais fortes aparece na área de single-cell RNA sequencing, especialmente no problema de integração de lotes. Esse problema consiste em juntar dados de diferentes laboratórios, tecnologias ou amostras, removendo efeitos artificiais de “lote” sem apagar diferenças biológicas reais. É um problema difícil porque envolve dados de alta dimensão, ruído e sinais biológicos sutis.

Os autores usaram o benchmark OpenProblems v2.0.0, que avalia métodos com várias métricas e datasets. Para evitar sobreajuste, o ERA foi otimizado em um conjunto separado e depois avaliado nos dados de teste do benchmark.

Mesmo sem orientação específica, o ERA produziu uma solução parecida com o ComBat e já melhorou o leaderboard. Depois, quando foi orientado por resumos de artigos sobre métodos existentes, superou oito dos nove métodos correspondentes. O melhor resultado veio de uma implementação inspirada no BBKNN, que gerou uma melhoria geral de 14% sobre o melhor método publicado, segundo os autores.

O mais interessante é que a melhoria não foi apenas ajuste de hiperparâmetros. O ERA combinou ideias de métodos diferentes: usou embeddings PCA corrigidos com ComBat antes de aplicar uma lógica de vizinhos balanceados por lote, mostrando o valor da recombinação de ideias.

Depois, os autores fizeram recombinações sistemáticas entre métodos. Das 55 recombinações testadas, 24 superaram ambos os métodos de origem, e 22 superaram pelo menos um dos dois. No total, 40 de 87 métodos gerados pelo ERA superaram todos os métodos publicados no leaderboard do OpenProblems.

Resultado em saúde pública: previsão de hospitalizações por Covid-19

Outro teste importante foi em epidemiologia, usando o CovidHub, coordenado pelo CDC. O desafio era prever hospitalizações por Covid-19 nos Estados Unidos, cobrindo 52 jurisdições, quatro horizontes temporais e múltiplos quantis de incerteza. A métrica usada foi o Weighted Interval Score, que avalia tanto a precisão quanto a calibração da incerteza.

O ERA foi avaliado retrospectivamente com dados disponíveis em 1º de maio de 2025. Para cada período de previsão, o sistema otimizava um modelo usando as seis semanas anteriores, em uma janela móvel de validação. O modelo retrospectivo do Google obteve WIS médio de 26, melhor que o ensemble oficial do CovidHub, que teve WIS médio de 29.

O sistema também replicou, recombinou e gerou estratégias novas. Das oito tentativas de replicar modelos existentes com base em descrições públicas, seis superaram as submissões originais. Em recombinações, 11 de 26 modelos híbridos superaram ambos os modelos de origem. No total, 14 estratégias geradas pelo ERA superaram o ensemble oficial do CovidHub.

A interpretação dos autores é que muitas das melhores soluções eram híbridas: combinavam fundamentos simples, como médias históricas e tendências recentes, com métodos estatísticos, epidemiológicos ou de aprendizado de máquina mais sofisticados.

Resultado em séries temporais

No benchmark GIFT-Eval, voltado para previsão geral de séries temporais, o ERA foi testado em dois formatos. Primeiro, criou uma solução específica para cada dataset. Nessa configuração, com bibliotecas como scikit-learn, statsmodels e XGBoost, ele superou o leaderboard de maio de 2025, que incluía modelos fundacionais, modelos de deep learning e métodos tradicionais de séries temporais.

Depois, os autores testaram algo mais ambicioso: uma biblioteca única, geral, escrita a partir de bibliotecas básicas, capaz de se adaptar a muitos datasets. Essa solução usava oito configurações pré-definidas e selecionava a melhor com base em validação. A versão final atingiu MASE de 0,734, depois de melhorias sucessivas durante a busca.

Essa solução unificada decompunha a série em componentes: nível de base, tendência, sazonalidade, variáveis de data, feriados e correção residual. Ou seja, o ERA acabou encontrando uma estratégia relativamente interpretável, próxima de uma decomposição modular de séries temporais.

Outros domínios

Além de genômica, epidemiologia e séries temporais, o ERA também foi testado em segmentação geoespacial, previsão de atividade neural em cérebro de peixe-zebra e análise numérica de integrais difíceis. Em todos esses casos, os autores afirmam que o sistema alcançou desempenho de nível especialista.

Relação com outras tradições de IA

O artigo situa o ERA em uma linhagem que inclui programação genética, programação generativa, geração de código por LLMs, AutoML, combinação entre LLMs e busca, e agentes científicos. A diferença é que o ERA não faz apenas geração “one-shot” de código, nem se limita à escolha de modelos dentro de frameworks prontos. Ele reescreve software de forma iterativa e pode mexer em pré-processamento, simulações, heurísticas matemáticas e estratégias de modelagem.

Por isso, ele é mais amplo que AutoML. Enquanto AutoML costuma procurar o melhor pipeline ou hiperparâmetro dentro de um espaço mais delimitado de aprendizado de máquina, o ERA pode modificar qualquer parte do software, desde que exista uma métrica que permita avaliar a qualidade do resultado.

Limites e cuidados

O próprio artigo faz uma distinção importante: otimizar modelos empíricos preditivos não é a mesma coisa que realizar descoberta científica plena. A descoberta científica envolve teorias, mecanismos causais, estruturas matemáticas e interpretação conceitual. O ERA é muito forte quando há uma métrica de avaliação clara, mas isso não significa que ele “entenda” o fenômeno no sentido teórico ou causal.

Há também riscos. Os autores reconhecem que sistemas capazes de produzir software empírico especializado podem reduzir a barreira técnica para executar tarefas sofisticadas em áreas sensíveis. Isso pode democratizar a pesquisa, mas também facilitar aplicações perigosas ou mal controladas.

Outro cuidado é institucional: o artigo é produzido por autores ligados ao Google, e a declaração de conflitos informa que os autores afiliados ao Google são empregados da empresa e possuem ações da Alphabet. Isso não invalida os resultados, mas é relevante para uma leitura crítica.

Síntese interpretativa

O ERA marca uma passagem importante: da IA como ferramenta de resposta, resumo ou assistência textual para a IA como sistema de experimentação computacional. Ele automatiza uma parte do método científico que envolve tentativa, erro, comparação, recombinação e otimização.

A grande força do ERA está em problemas nos quais há três condições: dados disponíveis, métrica clara e possibilidade de testar automaticamente muitas soluções. Nesses casos, ele acelera radicalmente a exploração do espaço de possibilidades. Os autores concluem que, para campos científicos “pontuáveis por máquinas”, a pesquisa pode estar diante de uma aceleração significativa: ideias que antes levariam semanas ou meses para serem testadas podem ser exploradas em horas ou dias.

A leitura crítica é que o ERA não elimina o papel do cientista. Ele desloca esse papel. O pesquisador continua sendo fundamental para formular boas perguntas, escolher métricas adequadas, interpretar resultados, avaliar riscos, reconhecer limites e conectar os achados a teorias, contextos e consequências sociais. O ERA automatiza uma parte poderosa da pesquisa, mas não resolve sozinho o problema do sentido científico do que foi encontrado.

Nota técnica:
Este resumo foi elaborado em coescrita com inteligência artificial a partir da leitura integral do artigo “An AI system to help scientists write expert-level empirical software”, publicado na revista Nature. O processo envolveu análise do PDF original, extração e organização temática dos argumentos, identificação das estruturas conceituais do texto e revisão interpretativa orientada por contexto acumulado sobre IA, epistemologia, automação científica e pesquisa computacional. O modelo foi utilizado não apenas para condensação textual, mas também para reconstrução analítica das relações entre conceitos, métodos, exemplos e implicações epistemológicas discutidas no artigo.

Link para o artigo original (link)

Deixe um comentário