Talvez sim, talvez não.
Partindo dessa premissa, fazer um teste com qualquer distro após meses de lançamento também poderia trazer diferenças quando comparamos com outra que seja lançamento, ou seja, o tempo sempre será um fator.
Por exemplo, o teste que temos do Pop!_OS 22.04 ele estava com o Kernel 5.18, provavelmente hoje o mesmo Pop, mas com Kernel 6 performaria melhor do que várias distros que analsamos depois da review dele, mesmo assim, aquele resultado fica preso no tempo e acaba ficando para trás nos testes em comparação a uma distro que foi lançada agora, já com Kernel 6, ao menos nos gráficos.
Por isso, o importante dos testes que fazemos é as pessoas entenderem a sua extensão, e a sua limitação.
O que eles são
Os testes representam a performance do sistema no estado atual em um fragmento do tempo onde o teste foi realizado, além de ser em um hardware específico.
Não podemos supor que o sistema vai ter a mesma performance “para sempre”, updates podem alterar profundamente isso, e no mundo Linux, eles geralmente chegam a todo instante. E também não podemos afirmar que as distros performem da mesma forma em hardwares diferentes.
O que podemos tirar deles
O que podemos trazer dos dados coletados é uma noção de como o sistema se comporta, e considerar quem sabe uma margem de erro.
Se eu testar o Mint Beta em um determinado benchmark (ignorando o fato de que o Mint e o outras distros estão em feature freeze nesses betas e costumeiramente nada realmente novo é adicionado) eu teria um resultado parcial ainda assim.
O problema é que se eu esperar o lançamento, também terei um resultado parcial, porque ao contrário do que se imagina, com o lançamento da distros, os bugs não são todos corrigidos necessariamente, o desenvolvimento não para, e um mês depois, os resultados poderiam ser diferentes.
Logo, mesmo na versão final, o resultado continua sendo, no máximo, parcial.
Outro exemplo
Quem testou o Ubuntu 18.04 LTS no lançamento, e testar o Ubuntu 18.04.5 LTS de agora, poderá ter resultados diferentes, é o mesmo sistema, em momentos diferentes do tempo, com praticamente 4 anos de atualizações nas costas.
Qual seria um caminho que diminuiria a parcialidade dos testes?
A única forma válida de medir distros de forma justa, acredito que seja (e ainda assim, com um prazo de expiração, muitas vezes de dias, ou até horas, como seria o caso com distros rolling release e updates constantes) seria fazer uma maratona de benchmarks, testando dezenas de sistemas ao mesmo tempo, em vários ambientes diferentes, para ter um recorte do momento.
Algo que é tecnicamente inviável, a menos que seja tenha dezenas de máquinas exatamente iguais, e pessoas para operar esse teste, e ainda assim poderiam existir outros fatores externos, como a temperatura dos computadores, e como são computadores de mesmo modelo, mas não necessariamente a mesma máquina, nem sempre o comportamento será o mesmo. É possível que exista uma solução para esse problema, mas eu sinceramente não sei qual seria ela, mas tenho ainda assim a sensação que seria de difícil implementação.
O problema persistiria e existem alguns outros
Mesmo assim que a gente pudesse testar dezenas de máquinas, cada qual com uma distro atualizada, tudo de uma vez, em um dia, para expor esses gráficos novos, gráficos estes que invalidariam imediatamente todos os testes anteriores, 1 mês depois, se o mesmo procedimento fosse feito, os resultados poderiam ser diferentes. Dessa o tempo gasto para chegar a essa conclusão acabou gerando um resultado que se invalida em questão de horas, dias se tivermos sorte.
Sem falar que existem muitas variantes, drivers novos, kernel novo, bugs, interfaces diferentes, servidores gráficos, processos em paralelo, etc. Qualquer parâmetro diferente, alteraria o resultado, e tecnicamente, todas as distros podem ser alteradas para usar o mesmo kernel, o mesmo pacote de drivers, etc.
Benchmarks de distros é algo extremamente complexo, e fazer eles de forma justa, 100% beira o impossível (talvez realmente seja). Mas é possível trazer uma noção apurada, por isso, o máximo que podemos fazer, ao menos por enquanto, é trazer essas aproximações que nos ajudam a ter uma noção da realidade, e para isso, fazer com uma distro no Beta, prestes a ser lançada, ou 1 mês depois do lançamento, não realmente faz tanta diferença, já que a precisão do teste é basicamente a mesma.
Abraços!