Eu ainda acho isso estranho. Me corrija se eu estiver errado, mas esse salto gigante do número de cores da Turing pra Ampere não foi pq a nvidia passou a utilizar o bloco de INT para também fazer operações FP? No caso, o "número físico" de cores se manteve quase o mesmo, eles apenas podem atuar de forma complementar para tasks puramente FP (não é o caso de jogos, por isso os ganhos são só os 20~30% por cima do aumento de cores FP/INT combinados).
Se reduzissem de volta para os 64 cores/SM, isso implicaria ter datapaths totalmente separados novamente, com realmente mais núcleos FP independentes? Pelas specs vazadas aí, a proporção de Cores/SM/GPC se manteve a mesma ainda, oq leva a entender que a estrutura da arquitetura seria quase o mesmo com apenas mais unidades tirando proveito da densidade maior do nó.
Sim, você está correto, eu que viajei legal e escrevi errado: Queria dizer que
"voltaríamos a ter 128 FP32" (como nas Pascal), no caso sem ser compartilhado com o INT32 (datapaths separados). Basicamente iria dobrar o FP32 de forma real, e ter 64 ou mais INT32 por SM.
---
Para quem ainda não entendeu o que estamos falando, a NVIDIA no decorrer das suas uArch mudou a proporção de núcleos e suas especializações (descartei as Titans e 3090):
uArch | GPU | SM | FP32 | INT32 | Núcleos |
---|
Tesla | GTX 285 | 30 | 8 por SM | | 240 CUDAs |
Fermi | GTX 580 | 16 | 32 por SM | | 512 CUDAs |
Kepler | GTX 780 Ti | 15 | 192 por SM | | 2880 CUDAs |
Maxwell | GTX 980 Ti | 22 | 128 por SM | | 2816 CUDAs |
Pascal | GTX 1080 Ti | 28 | 128 por SM | | 3584 CUDAs |
Turing | RTX 2080 Ti | 68 | 64 por SM | 64 por SM | 4352 CUDAs |
Ampere | RTX 3080 Ti * | 82 | 64 por SM | 64 por SM ** | 5248 à 10496 CUDAs |
Lovelace | ??? | 144 | ?? | ?? | 18432 CUDAs |
Perceberam que essa minha tabela tem algo de estranho nela? Então, as Ampere não têm realmente 128 FP32 por SM, ela tem 64 núcleos totalmente FP32 e 64 núcleos compartilhados, onde estes podem calcular FP32
ou INT32, então dependendo do programa uma RTX 3090 pode ter 10496 CUDAs (perf. ~2x acima da 2080Ti) ou 5248 CUDAs (perf. ~30% acima da 2080Ti) para usar, logo o desempenho da Ampere varia muito e depende de como a engine do jogo a utiliza. Vale constar que o processo de RTRT utiliza FP32, e alguns cálculos também, então usar RT automaticamente reduz a quantidade de núcleos CUDA/FP32 dela, logo o desempenho máximo em jogos de uma 3090 equivale a uns 7348 FP32 (perf. ~70% acima de uma 2080Ti).
Para ficar mais fácil ainda:
- Da Tesla à Pascal = CUDA
- Turing = CUDA + INT
- Ampere = CUDA + CUDA
ou CUDA + INT
PS: O caso de desempenho da 3090 em cima da 3080 não ser proporcional ao aumento de núcleos é que, até onde conseguiu ser constatado, falta largura de banda na 3090 :v
Asteriscos: A 3080Ti ainda não existe oficialmente, mas as specs são iguais à da 3090 em núcleos; Os 64 núcleos INT32 podem ser FP32 também (datapath compartilhado).
Estava olhando o vídeo da 3080 Aorus vs 6800XT Aorus e vi que com mais de 21XXmhz a 3080 crashou e abaixaram para 2025mhz, ou seja a minha está dentro do limite até por ser gigabyte tb.
Acho que isso tem ligação com os capacitores da VGA, a Nvidia deve ter feito algo via driver para limitar o clock e eliminar o problema dos crashs, o problema aparecia após passar 2100mhz, a empresa força os 20XXmhz em todas as 3080 e elimina o problema.
Foi bem interessante, o vídeo do adrena, assim que forçaram mais de 2100mhz a VGA abriu o bico.
Sobre a memória, 21ghz (+1000mhz) foi bem tranquilo aqui, deixei em +750mhz, por sinal é uma VGA que não precisa de oc, só fiz por conta do CP2077, jogo mais pesado da atualidade.
É exatamente isso, o driver limita o clock das Ampere para evitar crash, se o motivo do clock alto causar crash é dos capacitores ou não ainda é passível de discussão.
Só ela não saber, se vc fizer a troca com cuidado sem danificar os parafusos.
Mas francamente está série 30XX é uma das mais frias já feita, 3080 TuF, básica da Asus é muito fria.
Acho besteira trocar e arriscar a garantia, ainda mais Asus que é tão delicada neste aspecto.
Rapaz, dá para discordar disso, o chip Ampere esquenta bem mais que o Turing, e justamente por causa disso as placas estão vindo um monstro em dissipação e tamanho, resultando em temperaturas baixas. Se você colocar um cooler dessas 30XX em uma 20XX vai ver o quão mais fria ficará a série passada