Rodando uns testes agora, primeiro avaliando os diferentes valores com power limits variados, no bench do resnet com fp16 e batch_size de 128:
250W - 1074.36 imgs/sec
275W - 1125.18 imgs/sec
300W - 1151.24 imgs/sec
350W - 1241.81 imgs/sec
370W - 1233.22 imgs/sec (padrão da GPU é esse)
390W - 1254.26 imgs/sec (limite máximo da bios dessa GPU, rodei com o cu na mão por conta da fonte)
Acima de 350W nem há ganhos, não sei se é gargalo do workload em si ou se já tá na área dos diminishing returns mesmo, vou usar os 370W que vem por padrão pros demais testes.
Lembrando que de acordo com a pugetsystems, eles observaram que 250W entregava 93% do desempenho, 275 era 95% e 300W dava 98%, vide:
Can you run 4 RTX3090's in a system under heavy compute load? Yes, by using nvidia-smi I was able to reduce the power limit on 4 GPUs from 350W to 280W and achieve over 95% of maximum performance. The total power load "at the wall" was reasonable for a single power supply and a modest US...
www.pugetsystems.com
Nos meus testes ali, 300W foi 90% do desempenho, 275W entregou 90%, e 250W entregaram 86%. Acho que vou usar 275W no dia a dia, a fonte deve aguentar de boas mesmo com o sistema todo em full load.
Atualizando minha tabelinha agora:
Código:
+-------------------+---------------+----------------+----------------+----------------+----------------+---------------+----------------+----------------+----------------+----------------+-----------------+
| GPU-Imgs/s | FP32 Batch 64 | FP32 Batch 128 | FP32 Batch 256 | FP32 Batch 384 | FP32 Batch 512 | FP16 Batch 64 | FP16 Batch 128 | FP16 Batch 256 | FP16 Batch 384 | FP16 Batch 512 | FP16 Batch 1024 |
+-------------------+---------------+----------------+----------------+----------------+----------------+---------------+----------------+----------------+----------------+----------------+-----------------+
| 2060 Super | 172 | NA | NA | NA | NA | 405 | 444 | NA | NA | NA | NA |
| 3060 | 220 | NA | NA | NA | NA | 475 | 500 | NA | NA | NA | NA |
| 3080 | 396 | NA | NA | NA | NA | 900 | 947 | NA | NA | NA | NA |
| 3090 | 435 | 449 | 460 | OOM | NA | 1163 | 1217 | 1282 | 1311 | 1324 | OOM |
| V100 | 369 | 394 | NA | NA | NA | 975 | 1117 | NA | NA | NA | NA |
| A100 | 766 | 837 | 873 | 865 | OOM | 1892 | 2148 | 2379 | 2324 | 2492 | 2362 |
| Radeon VII (ROCm) | 288 | 304 | NA | NA | NA | 393 | 426 | NA | NA | NA | NA |
| 6800XT (DirectML) | NA | 63 | NA | NA | NA | NA | 52 | NA | NA | NA | NA |
+-------------------+---------------+----------------+----------------+----------------+----------------+---------------+----------------+----------------+----------------+----------------+-----------------+
E resultados do ai-benchmark pra comparar com a A100:
Device Inference Score: 24963
Device Training Score: 30678
Device AI Score: 55641
Como deu resultados maiores aqui? Chuto que sejam só testes com datasets pequenos onde minha CPU acaba fazendo diferença (a CPU do teste da A100 era capadinha) e os clocks maiores da 3090 ajudam.
Durante todos os testes não vi a GPU esquentar muito, não passou de 64º com as fans no máximo em 72% (e super silenciosas), sendo que meu quarto está com o ar em 23º, antes dos testes tava medindo 23.7º no ambiente (temperatura tirada a 1 palmo de onde a GPU tá enquanto idle):
Depois do teste subiu meio grau:
acho que quase 400W no ambiente esquentam um pouco rs
Ah, aproveitei que ia desligar o PC para colocar a placa e atualizei o sistema (faço a cada 1~2 semanas quando reinicio o PC, de resto ele fica 24/7), coloquei a placa, ligou, mas não inicializava o ambiente gráfico do meu sistema, já fiquei receoso achando que tinha dado ruim na placa de minerador. Depois de vasculhar vi que era só um bug do driver da nvidia, precisei tirar o hdmi, logar nas cegas e depois plugar o cabo, tudo certo.
Parece que a nvidia tá com vontade de deixar 1 bug por ano no linux agora.