Está na hora de desmitificar o InfinityCache! Duas informações interessantes sobre ele:
1) O valor de 1664GB/s é apenas um caso, o pior deles, a velocidade varia constantemente.
2) O Rage Mode influencia diretamente na velocidade efetiva.
A fórmula para chegar na velocidade efetiva é dada por:
256b * 1B / 8b * (GD6 Speed) + (Infinity Cache Speed) * 16channel * 64B/channel * (Hitrate)
Segundo a AMD a taxa de acerto do InfinityCache é de apenas 58%, a velocidade do InfCache é de 2105MHz e a velocidade do GDDR6 é 16GB/s.
Então como sei que vocês gostam muito de matemática, vou simplificar esse cálculo para:
Vazão Efetiva (melhor caso) = ((Boost Clock * 0,99) * taxa de acerto do InfinityCache) + (Velocidade da memória * (Barramento / 8))
Vazão Efetiva (média) = (((Game Clock + Boost Clock) * 0,494) * taxa de acerto do InfinityCache) + (Velocidade da memória * (Barramento / 8))
Vazão Efetiva (pior caso) = ((Game Clock * 0,985) * taxa de acerto do InfinityCache) + (Velocidade da memória * (Barramento / 8))
Ficou mais fácil, não? Essa é a fórmula caso de queira saber a largura de banda (efetiva) das RDNA2 com InfinityCache.
Aplicando ela na Navi21 XT/XTX temos: ~1804GB/s no Rage Mode, ~1734GB/s na média e ~1664GB/s no pior caso.
E se colocarmos aquela Asus Strix vazada (2.4GHz de boost): ~1896GB/s no Rage Mode, ~1821GB/s na média e ~1746GB/s no pior caso.
E o que o Rage Mode tem a ver com isso? Por aumentar o PowerCurve da placa, ele faz com que a mesma fique constantemente no Boost Clock ou ultrapasse-o, entregando uma largura de banda sempre no limite. MAS estou falando o tempo todo em "efetivo", porque isso não é a velocidade real, é um valor para poder comparar com a geração anterior e a concorrência. A velocidade real é da placa é de <=2TB/s + 512GB/s. Por que "menor ou igual quê"? Porque o cache, mesmo trabalhando em sua velocidade máxima, não entrega 100% dos resultados, pois para tal ela precisaria estar em full-load em todos os canais, o que raramente acontece (ao contrário da VRAM, onde ela alcança 100% do IMC o tempo todo).
Então mesmo a cache trabalhando a 2GHz ela não entregará 2TB/s, por isso aquele fator multiplicador ali (0.985 no pior caso e 0.990 no melhor caso). Segundo a AMD o cálculo para o pior caso deve ser feito com a InfCache entregando 1940GB/s em 2105MHz, e esse valor mesmo alto ainda não reproduz o tráfego real da placa. Por quê? Ué, esqueceram que a cache é pequena e que nem sempre os dados estão nela? Digam olá para os hit-rate e miss-rate: A InfCache só entregará 1.9TB/s quando o dado estiver nela (hit), caso não esteja ela entregará nada (miss), enquanto isso o GDDR6 entregará 512GB/s o tempo todo.
Então por que o cálculo não é (infCache * 0,58 + gd6 * 0,42)? Porque o InfCache é mais um nível de cache

Temos a L0, L1 e L2 antes dela, e nesse último a taxa de acerto é de 64% (no RDNA1, ainda não tenho os dados do RDNA2). Logo, para acessar a VRAM (512GB/s) o dado que a unidade computacional precisa estar exclusivamente nela, e as chances disso acontecer são de... apenas 15%. Então 85% das vezes o CU trabalhará com dados a uma velocidade mínima de 1.9GB/s, apenas 15% das vezes ele vai pegar um dado a 0.5TB/s, e isso é um baita ganho em cima da RDNA1 (36% das vezes o CU acessa a VRAM).
Se a AMD retrabalhou a hierarquia de cache da RDNA2 e aumentou o hit-rate no L2, esses 15% serão ainda menores, fazendo com que essa "largura de banda efetiva" seja perfeitamente utilizada como um número real para todos os casos. O que esperar do RDNA3? Um aumento dessa taxa de acerto no InfinityCache, e qualquer porcentagem aqui faz a diferença (se formos dos atuais 58% para os mesmos 64% da L2 do RDNA1, teremos um aumento de 1664GB/s para 1782GB/s, no pior caso, e um acesso à VRAM em apenas 13% dos casos).
...chega de matemática por hoje!
A penalidade tende a diminuir. A tomada do RTRT da AMD é diferente da da NVIDIA: Enquanto a segunda é acelerada plenamente pelo hardware (RT Core para o BVH/interseções, Tensor Core para o a finalização/degrain), a primeira é híbrida, onde o RA cuida do BVH e os TMUs cuidam da finalização e os CUs do degrain. Logo a segunda metade do processo depende do rendimento da placa e de como o driver vai fornecer a ordem e instrução da operação.
Isso significa que o desempenho do RT da AMD pode aumentar ou diminuir de acordo com o driver, e da habilidade de programação do DEV.
Mas é aquilo, aparentemente o desempenho atual em RTRT da 6800XT == 2080Ti < 3080, logo mesmo que haja ganho ela não igualará a 3080.
---
E olha só o que está acontecendo, as AIBs demonstraram interesse na 6900XT.
Será que veremos as MSI Lightning, Asus Matrix, Sapphire Toxic e afins?!